当 机 械 工业 出 版 社 华章 公司 的 关 敏 编辑 询问 我 有 没有 兴趣 翻译 Martin Hosken 的 《VMware Software-Defined Storage》 
一 书 时 ， 我 是 既 惊 讶 又 高 兴 ， 因 为 之 前 我 曾 希 望 有 这 么 一 本 专门 介绍 VMware 软件 定义 存储 的 书籍 ， 但 是 并 没有 看 到 过 。 虽 然 两 
年 前 ， 我 在 我 的 微 信 公 众 号 “ 乐 生 活 与 爱 IT” 上 专门 刊登 了 一 篇 题 为 《存储 策略 之 发 展 & VMware SPBM 是 什么 ( 含 VVol 大 
全 ) 》 的 文章 ， 其 内 容 与 VMware 软件 定义 存储 相关 ， 但 毕竟 不 成 体系 。 没 想到 ， 终 于 有 我 VMware 公司 的 同事 撰写 了 这 个 主题 
的 书籍 。 


看 到 英文 原版 书后 ， 我 非常 高 兴 ， 因 为 书 中 不 仅 介 绍 了 vSAN 和 Virtual Volumes (vVol) ， 还 用 两 章 介绍 了 传统 存储 
(Classic storage) 。 我 觉得 ， 完 整 的 vyphere 存 储 就 应 该 如 此 ， 因 为 仍然 有 大 量 的 用 户 在 使 用 传统 存储 ， 只 有 一 些 外 置 存储 用 
户 开 始 尝试 Virtual Volumes， 当 然 将 来 会 有 越 来 越 多 的 用 户 转向 vSAN。 我 个 人 觉得 ，VMware 是 一 个 在 生态 环境 方面 做 得 非 
常 出 色 的 公司 ， 应 该 继续 保持 其 生态 的 强壮 ， 扩 大 其 在 vSphere 存 储 领 域 的 影响 力 。 


为 了 方便 读者 迅速 获得 VMware 软 件 定 义 存储 的 全 有 够 ， 我 制作 了 一 个 结构 图 供 大 家 参考 ( 见 下 页 ) 。 


本 书 第 5 章 专门 介绍 了 vSAN 双 活 ， 即 延伸 集群 (Stretched Cluster) 的 设计 。 不 过 可 惜 的 是 ， 因 为 时 间 原 因 ， 没 有 包括 
VSAN 6.6 在 双 活 上 增强 的 功能 ， 即 除了 跨 站 点 的 镜像 (通过 设置 PFTT， 即 Primary Failures to Tolerate) 之 外 ， 每 一 个 数据 中 
心 站 点 还 可 以 通过 设置 SFTT (Secondary Failures to Tolerate) 的 值 增 强 数 据 在 本 地 的 元 余 。 这 样 做 虽然 牺牲 了 一 些 存储 利用 
率 ， 但 是 大 大 地 提高 了 vSAN 双 活 的 高 可 用 性 。 更 多 细节 可 以 在 网 上 搜索 关键 字 “vSAN 6.6 双 活 新 特性 ”进行 扩展 阅读 。 


在 第 4 章 和 第 8 章 介绍 vSAN 及 vVol 时 ， 作 者 Martin 使 用 的 章 名 中 都 包含 了 “策略 驱动 ”， 我 很 欣赏 这 一 点 ， 因 为 我 觉得 软件 
定义 就 是 为 云 计算 而 生 的 ， 而 软件 定义 中 最 核心 、 最 重要 的 阶段 就 是 实现 自动 化 。VMware 就 是 通过 策略 驱动 来 实现 自动 化 的 。 
我 曾 利 用 去 美国 出 差 的 机 会 ， 专 门 和 Martin 见 面 交 流 过 ， 发 现 我 们 有 不 少 理念 是 一 致 的 。 
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令 我 欣喜 的 是 ，Martin 还 在 本 书 的 最 后 两 章 ( 即 第 9 章 和 第 10 章 ) 中 介绍 了 vSAN 与 vRealize Automation 如 何 结合 实现 
STaaS (Storage as a Service,， 存储 即 服务 ) ， 以 及 VSAN 与 VRops、Log Insight 如 何 结合 实现 监控 和 运 维 。 这 就 使 本 书 关 于 
VMware 软件 定义 存储 的 内 容 更 为 完整 了 。 


不 过 需要 坦率 指出 的 是 ， 本 书 美中不足 的 是 ， 有 些 行文 过 于 喝 唆 ， 类 似 的 语句 有 时 可 能 会 重复 出 现 ， 请 不 要 以 为 是 翻译 或 排 
版 出 了 问题 ， 很 可 能 原文 就 是 如 此 。 


本 书 的 英文 原版 有 500 多 页 ， 我 采用 了 与 2015 年 撰写 软件 定义 存储 书籍 类 似 的 方法 。 这 次 我 邀请 了 VMware 中 国 的 几 位 技术 


储 、 桌 面 技术 等 都 很 熟悉 ) 之 一 苏 旭 。 每 当 周 末 向 他 们 催 稿 的 时 候 ， 我 心里 都 是 无 比 纠结 的 ， 因 为 我 知道 大 家 平时 工作 忙 ， 周 末 
还 要 赶 写 译 稿 也 难得 休息 一 下 。 在 这 里 诚挚 地 向 他 们 表示 感谢 。 


本 书 的 所 有 译 者 及 各 自负 责 的 章节 如 下 。 


叶 毓 蹇 ，VMware 存 储 架构 师 ， 有 超过 14 年 的 IT 行业 从 业经 验 ， 曾 获 VMware 全 球 总 部 颁发 的 “VMware Club 2016” 殊 
荣 ,， 以 及 VMware 软件 定义 存储 全 球 团队 的 2016 年 “亚太 年 度 最 佳 技术 顾问 ”称号 。 著 有 《软件 定义 存储 : 原理 、 实 践 与 生 
态 》 一 书 ， 也 是 微 信 公众 号 “ 乐 生活 与 爱 IT” 的 作者 。 曾 任职 于 EMC、Compellent、DELL， 对 存储 行业 的 历史 发 展 和 未 来 趋势 
有 较 深 的 理解 。 翻 译 了 第 1、2、8 章 ， 以 及 Duncan Epping 的 推荐 序 、 作 者 Martin Hosken 的 简介 和 技术 审 校 Ray Heffer 的 简 
介 。 


臧 铁 军 ，VMware 中 国 卓 越 中 心 资深 解决 方案 架构 师 ，VMware CTO 大 使 ， 有 超过 18 年 的 IT 行业 从 业经 验 ， 曾 就 职 于 
Veritas、Symantec 等 国际 知名 企业 ， 持 有 TOGAF、CISSP 等 多 项 认证 。 在 数据 中 心 及 云 平台 建设 、 存 储 与 可 用 性 、 网 络 与 安 
全 ， 以 及 应 用 转型 等 方面 经 验 丰 富 。 目 前 主要 负责 为 电信 、 人 金融 等 行业 的 重点 项 目 提 供 整体 方案 设计 。 个 人 公众 号 : 疯 云 时 代 。 
翻译 了 第 4、5 章 。 


赵 杰 ，VMware 售 后 服务 团队 解决 方案 架构 师 ，VMware CTO 大 使 ， 有 超过 14 年 的 IT 行业 从 业经 验 ， 曾 就 职 于 VMware 研 
发 中 心 、CA、1BM 等 国际 知名 企业 ， 持 有 PMP、SCA、RHCE 等 多 项 认证 。 在 虚拟 化 领域 ， 尤 其 是 虚拟 桌面 、 云 管 平台 等 产品 
的 设计 、 开 发 和 实施 方面 有 丰富 的 经 验 。 除 此 之 外 ， 他 在 OpenStack 和 Cloud stack 的 部 署 、 运 维 及 开发 方面 有 丰富 的 经 验 。 在 
加 入 VMware 公 司 之 前 ， 专 注 于 C++ 和 Java 的 程序 开发 ， 他 最 近 的 兴趣 是 DevOps 和 和 TensorFlow 开 发 。 翻 译 了 第 3、6、7 章 。 





苏 但 ，VMware 云 管理 业务 部 资深 系统 工程 师 ， 有 超过 8 年 的 IT 行业 从 业经 验 ， 持 有 VCAP、PMP 等 多 项 认证 。 曾 参与 电信 
行业 、 能 源 行业 等 多 个 大 型 私有 云 建设 项 目 ， 负 责 过 某 运 莒 商 上 于 点 云 桌 面 设计 及 实施 工作 ， 在 服务 器 虚拟 化 、 桌 面 虚拟 化 、 分 
布 式 存 储 、 云 管 平台 等 方面 经 验 丰富 。 目 前 主要 负责 VMware 云 管 产 品 售 前 支持 工作 。 翻 译 了 第 9、10 章 。 


最 后 要 感谢 VMware 公司 的 李 严 冰 、 郭 尊 华 、 李 刚 和 张 峥 。 
叶 笋 害 
VMware 存 储 架 构 师 、《 软 件 定 义 存 储 : 原理 、 实 践 与 生态 》 作 者 
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刚刚 完成 Virtual SAN (VSAN) 一 书 (1 的 最 后 一 章 时 ，Martin 问 我 想 不 想 为 他 的 书 撰写 推荐 序 。 你 可 以 想象 ， 我 很 惊讶 地 
发 现 另 一 个 人 写 了 一 本 关于 软件 定义 存储 的 书 ， 并 惊喜 地 发 现 ，VSAN 是 这 本 书 里 的 主要 议题 之 一 。 不 只 是 惊讶 ， 我 很 高 兴 。 世 
变化 很 快 ， 管 理 员 和 架构 师 需要 有 人 指导 着 通 往 软件 定义 的 数据 中 心 。 


当 和 客户 、 合 作 伙 伴 谈 到 软件 定义 的 数据 中 心 这 一 主题 时 ， 通 常会 出 现 一 些 问题 。 数 据 中 心 有 两 个 部 分 在 以 往 一 直 是 具有 挑 
战 性 的 或 有 问题 的 ， 即 网 络 和 存储 。 网 络 问题 以 及 那些 与 安全 有 关 的 顾虑 已 在 很 大 程度 上 通过 VMware NSX 得 到 解决 ， 它 允许 
虚拟 化 和 网 络 管理 员 密 切合 作 ， 为 他 们 管理 的 工作 负载 提供 一 种 灵活 但 安全 的 基础 。 这 是 通过 在 物理 环境 上 方 添加 抽象 层 ， 并 将 
特定 的 服务 移动 到 更 接近 他 们 所 属 的 工作 负载 (例如 ， 防 火 墙 和 路 由 ) 上 来 实现 的 。 


30 多 年 以 前 ，RAID 出 现 了 ， 它 允许 用 户 组 织 多 个 硬 磁盘 驱动 器 创建 逻辑 设备 。 这 人 允许 有 更 大 的 容量 ， 以 及 更 高 的 可 用 性 。 
当然 ， 根 据 使 用 的 RAID 类 型 的 不 同 ， 还 允许 有 更 好 的 性 能 。 不 过 ， 公 平地 说 ，RAID 的 创建 在 当时 是 许多 制约 因素 的 结果 。 随 着 
时 间 推 移 ， 所 有 的 这 些 制 约 已 经 逐步 消失 ， 硬 件 的 发 展开 启 了 (软件 定义 的 ) 存储 的 革命 。 固 态 硬盘 、 基 于 PCle 的 闪存 、 
NVMe、10GbE、25GbE (或 更 高 ) 、RDMA、12Gbps 的 SAS 等 多 项 技术 使 得 存储 厂商 得 以 再 次 创新 ， 让 生活 变 得 更 简单 。 由 
于 单个 SSD 设 备 能 够 轻松 地 提供 5 万 IOPS， 我 们 已 经 不 需要 通过 横 跨 多 块 盘 的 方式 去 满足 性 能 的 需求 。 虽 然 一 些 抽象 屋 ， 如 传统 
的 RAID 或 磁盘 组 ， 可 能 已 被 移 除 ， 但 我 认为 ,今天 大 多 数 的 存储 系统 并 不 是 对 管理 员 或 用 户 友 好 的 。 


这 些 系统 提供 了 不 同 的 协议 (iSCSI、FCoE、NFS、FC) 、 不 同 的 存储 系统 (机 械 盘 、 混 合 、 全 闪存 ) ， 不 同 的 数据 服务 和 
功能 。 因 此 ， 我 们 不 能 简单 地 像 我 们 为 NSX 所 做 的 那样 ， 在 上 方 放置 一 个 抽象 层 。 我 们 仍然 需要 抽象 一 些 形状 或 形式 的 资源 ， 而 
且 肯 定 会 以 不 同 的 、 更 简单 的 方式 来 呈现 。 更 好 的 是 ， 我 们 利用 一 个 跨 不 同类 型 的 常见 框架 的 解决 方案 ， 无 论 是 像 Virtual SAN 
那样 的 超 融合 的 软件 解决 方案 ， 还 是 更 传统 的 基于 iSCSI 的 、 将 闪存 盘 和 机 械 盘 结合 的 存储 系统 。 


这 个 框架 就 是 基于 存储 的 策略 的 管理 。 如 果 你 有 什么 需要 从 这 本 书 中 得 到 的 ， 那 就 是 你 开始 学 习 软件 定义 存储 的 起 点 ， 即 作 
为 vSphere 的 一 部 分 的 SPBM 框 架 。SPBM 是 在 跨 许多 不 同类 型 的 存储 (使 用 不 同 的 协议 ) 以 简单 和 一 致 的 方式 消耗 存储 资源 的 


抽象 层 ， 通 过 创造 能 够 通过 VASA (VMware APl for storage Awareness) 传递 到 各 自 的 存储 系统 的 策略 来 实现 。 


为 了 能 够 创建 满足 客户 (应 用 程序 所 有 者 /用 户 ) 需求 的 基础 设施 ， 至 关 重 要 的 是 你 一 一 管理 员 或 架构 师 一 一 已 经 很 好 地 理 
解 了 不 同 的 存储 平台 、 应 用 的 需求 ， 以 及 怎样 的 架构 决策 会 影响 工作 负载 的 可 用 性 、 可 恢复 性 和 性 能 。 





但 在 那 之 前 ， 本 书 将 为 大 家 提供 理解 存储 概念 的 良好 基础 ， 包 括 精简 LUN、 协 议 、RAID， 以 及 更 多 。 之 后 是 在 基于 
VMware 的 基础 架构 中 可 用 的 软件 定义 存储 选项 ， 其 中 会 着 重 关注 虚拟 卷 和 Virtual SAN。 


很 多 人 都 写 过 关于 软件 定义 存储 的 主题 ， 但 大 都 不 像 马 丁 这 样 有 资格 来 写 。 马 丁 是 少数 获得 两 个 VCDX 认 证 的 人 员 之 一 ， 作 
为 全 球 云 架 构 师 ， 他 在 这 一 领域 有 着 丰富 的 经 验 。 他 将 带 你 走 上 基于 VMware 基 础 架构 的 、 通 向 软件 定义 存储 的 世界 之 旅 ， 并 教 
你 沿途 的 架构 的 艺术 。 
我 希望 你 会 喜欢 读 这 本 书 ， 就 像 我 一 样 。 
Duncan Epping 
VMware 公 司 存储 及 可 用 性 部 门 首席 技术 官 


[1] 这 里 是 指 Duncan Epping 所 著 的 《VMwate Virtual SAN 权威 指南 》， 该 书 第 2 版 中 文 版 已 由 机 械 工业 出 版 社 引 进出 版 ， 书 号 为 : 
978-7-111-57385-2。 


如 何 迎 接 数 字 化 转型 的 挑战 


据 IDC 报 告 ， 全 球 目前 有 80 亿 人 台 联 网 设备 ， 到 2031 年 这 个 数字 将 超过 2000 亿 ， 是 全 球 总 人 口 的 25 倍 。 过 去 10 年 ， 传 媒 、 娱 
乐 、 零 售 、 交 通 、 银 行 、 保 险 、 医 疗 、 旅 游 、 物 流 等 行业 无 一 不 打上 了 数字 化 的 烙印 。 相 关 统 计 显 示 ，100 多 年 前 ， 企 业 的 平均 
寿命 是 67 年 ; 而 在 当今 的 数字 化 时 代 ， 企 业 的 平均 寿命 缩短 到 了 15 年 。 如 果 企 业 不 能 直面 数字 化 转型 的 挑战 ， 就 只 能 被 时 代 无 
情 地 淘汰 。 


在 数字 化 时 代 ，IT 就 是 业务 。 如 今 ， 所 有 企业 都 十 分 关注 数字 化 转型 。 例 如 GE 以 前 是 一 家 制造 业 公 司 ， 但 GE 高 层 最 近 接 受 
采访 时 表示 ，GE 已 经 到 入 了 数字 化 行业 。 


如 何 迎 接 数字 化 转型 的 挑战 ? 构建 并 用 好 混合 云 是 关键 。 


从 20 世 纪 60 年 代 的 “主机 -终端 ”，20 世 纪 90 年 代 的 “客户 机 -服务 器 ”， 到 如 今 的 “边缘 计算 - 云 计算 ”，IT 基 础 模式 几经 
演变 ， 不 断 完善 。 过 去 多 年 ， 企 业 IT 基 础 架构 不 断 集中 化 ;而 近年 来 ， 随 着 私有 云 和 公有 云 技 术 的 快速 演进 ， 边 缘 计 算 和 loT 等 
新 兴 应 用 场景 的 兴起 ， 以 及 企业 应 用 架构 的 不 断 发 展 ， 企 业 IT 开 始 呈 现 出 多 样 化 的 特点 。 数 字 化 转型 绝 非 局 限于 采用 新 技术 ， 其 
根本 在 于 转变 业务 模式 。 企 业 希 望 在 公有 云 和 私有 云 之 间 取 得 平衡 ， 因 此 混合 云 是 企业 1T 战 略 的 必然 选择 。 


在 其 他 厂商 关注 混合 云 和 私有 云 之 前 ，VMware 就 已 经 开始 发 展 混合 云 并 将 其 落地 了 。 过 去 几 年 里 ，VMware 清 晰 地 摘 述 了 
未 来 愿景 : 在 任何 云 、 任 何 设 备 上 连接 任何 应 用 ， 即 以 软件 定义 的 方法 帮助 企业 完成 数字 化 转型 。 基 于 跨 云 架 构 ， 统 一 所 有 接 入 
设备 ， 并 扩展 至 loT 环 境 的 平台 ， 从 而 帮助 企业 开发 未 来 的 现代 化 应 用 ， 整 合 传统 应 用 ， 建 立 一 个 跨 云 的 、 可 用 于 任何 设备 的 IT 


基础 架构 。 无 论 企业 采用 的 是 公有 云 、 混 合 云 ， 还 是 私有 云 ， 采 用 的 是 传统 上 IT、 传统 应 用 ， 还 是 新 应 用 、 多 种 设备 ， 这 个 架构 可 
以 帮助 消除 一 切 隔 闵 。 跨 云 架构 的 最 佳 实践 是 软件 定义 的 数据 中 心 ， 包含 VMware Cloud Foundation 和 VMware Cloud 
Services 等 产品 。 在 VMworld 2017 大 会 上 ，VMware Cloud on AWS 宣 布 正 式 商用 ， 这 也 是 VMware 跨 云 架 构 的 具体 实现 。 客 
户 无 须 重 写 或 重 构 应 用 ， 就 能 让 工作 负载 在 私有 云 和 公有 云 之 间 便 捷 地 双向 迁移 。 除 了 AWS、1BM 等 多 家 公有 云 服务 商 在 积极 
与 VMware 开展 合作 之 外 ， 在 国内 ， 我 们 也 将 与 更 多 的 公有 云 服务 商 合作 ， 通 过 VMware 跨 云 架构 帮助 客户 实现 混合 云 。 


软件 定义 的 数据 中 心 是 混合 云 的 最 佳 实践 。 而 在 软件 定义 的 数据 中 心 内 ， 软 件 定义 存储 尤为 重要 。VMware VSAN 人 在 
VMware 跨 云 架构 的 愿景 之 下 ， 已 经 成 为 未 来 就 绪 的 超 融 合 架构 ， 它 不 仅 适 用 于 私有 云 ， 还 能 延伸 到 公有 云 。 我 很 高 兴 看 到 本 书 
译 者 叶 航 蹇 在 领 衍 撰 写 《 软 件 定义 存储 : 原理 、 实 践 与 生态 》 之 后 ， 又 组 织 VMware 中 国 的 技术 专家 联合 翻译 了 这 本 书 。 我 相信 
读者 读 完 本 书后 会 受益 菲 浅 ， 本 书 对 深刻 理解 VMware 人 存储 技术 具有 非凡 的 意义 。 


郭 尊 华 (Bernard Kwok) 
VMware 全 球 副 总 裁 、 大 中 华 区 总 裁 


2017 年 11 月 


推荐 序 三 


未 来 就 绪 的 VMware 软件 定义 存储 


当 作 者 Martin Hosken 和 中 文 版 译 者 Peter Ye ( 叶 毓 蹇 ) 先后 向 我 展示 这 本 《VMware Software-Defined Storage》 的 时 
候 ， 我 有 些 惊讶 。 因 为 ， 市 面 上 与 VMware VSAN 相 关 的 书 有 不 少 ， 但 是 专门 前 述 VMware 存 储 的 书 却 不 多 见 。 我 很 高 兴 看 到 
本 书 涵盖 了 vsphere 存 储 的 各 个 方面 ， 包 含 传统 存储 ， 以 及 下 一 代 存 储 (也 即 策略 驱动 的 存储 ) 在 设计 、 实 施 和 管理 上 的 细节 。 


众所周知 ，2012 年 8 月 VMware 在 全 球 首倡 软件 定义 数据 中 心 (Software Defined Data Center，SDDC) 的 概念 ， 并 同时 
提出 了 VMware 软件 定义 存储 (Software Defined Storage，SDS) 的 概念 。VMware SDS 的 愿景 就 是 以 动态 方式 按 虚 拟 机 创 
建 和 交付 存储 服务 。 它 包含 两 个 关键 因素 : 一 是 策略 驱动 的 控制 层 ， 这 是 一 个 新 的 管理 层 ， 可 利用 基于 策略 的 框架 跨 所 有 存储 
层 ， 以 一 致 的 方法 提供 通用 编排 功能 ， 并 实现 存储 使 用 自动 化 ， 二 是 虚拟 数据 层 ， 这 是 一 个 新 的 抽象 屋 ， 它 允许 用 户 将 存储 容量 
移 至 灵活 的 、 以 虚拟 机 为 中 心 的 虚拟 数据 存储 中 ， 具 体 包括 VMware VSAN、VMware Virtual Volumes (vVol) 和 其 他 部 分 。 


VMware SDSs 致 力 于 交付 企业 级 数据 服务 ， 如 快照 、 克 隆 和 重复 数据 删除 。 期 待 能 够 改进 基于 策略 的 控制 层 的 使 用 方法 ， 
以 实现 云 计 算 和 移动 化 。VMware SDS 能 以 动态 方式 调配 存储 服务 ， 以 保证 应 用 的 服务 质量 ， 使 得 应 用 真正 可 以 定义 自身 的 存 
储 需 求 。 


2014 年 3 月 ，VMware 正 式 推出 首 个 软件 定义 存储 产品 VMware VSAN ， 这 使 得 VMware 软件 定义 数据 中 心 涵盖 了 全 部 所 需 
的 组 件 ， 包 括 计算 、 网 络 、 管 理 、 安 全 和 存储 。 


2016 年 8 月 ， 结 合 vShpere、vSAN、NSX 三 大 产品 线 ， 加 上 SDDC Manager 等 ，VMware 推 出 了 Cloud Foundation 这 一 
SDDC 的 整套 软件 堆栈 ， 使 得 SDDC as a Service (SDDCaaS) 既 可 以 运行 在 私有 云 上 ， 又 可 以 运行 在 公有 云 上 ， 为 私有 云 和 公 
有 云 提供 企业 级 云 计 算 基 础 架构 。 与 此 同时 ，VMware 确 定 了 未 来 将 致力 于 实现 跨 云 和 多 云 管理 平台 ， 将 用 户 的 私有 云 与 公有 
云 ， 各 个 可 能 形成 孤岛 的 公有 云 之 间 打通 ， 帮 助 用 户 的 业务 负载 在 混合 云 上 按 需 、 灵 活 地 在 线 漂 移 。 


在 2017 年 8 月 召开 的 VMworld 2017 会 议 上 ，VMware CEO Pat Gelsinger 强 调 了 VMware 的 愿景 与 策略 : 通过 数据 中 心 现 
代 化 、 公 有 云集 成 、 赋 能 数字 工作 空间 和 新 型 安全 ， 在 任何 云 、 任 何 设 备 上 连接 任何 App， 也 就 是 用 软件 定义 业务 和 软件 定义 IT 
的 方式 帮助 企业 完成 数字 化 转型 。VMware 致 力 于 帮助 客户 实现 IT 基础 架构 与 应 用 服务 现代 化 ， 以 获得 高 速 发 展 、 安 全 性 和 敏捷 
性 ， 进 而 推动 从 数据 中 心 到 网 络 边缘 的 全 面 转型 。 此 次 会 议 还 宣布 了 VMware Cloud Foundation 将 对 VMware Cloud on 
AWS 正 式 商 用 提供 支持 。 


目前 ， 以 vSAN 为 重要 组 成 部 分 的 Cloud Foundation 已 经 可 以 运行 在 AWS、IBM Cloud， 以 及 类 似 Rackspace 等 众多 
VMware Cloud Provider ( 云 服务 提供 商 ) 的 云 平台 上 了 。 在 这 个 过 程 中 ， 我 坚信 ， 作 为 公有 云 和 私有 都 将 采用 的 超 融 合 架 
构 ， 尤 其 是 vSAN， 将 会 迅猛 增长 。 


李 严 冰 博 士 


VMware 全 球 高 级 副 总 裁 、 存 储 及 可 用 性 部 门 总 经 理 


存储 往往 是 虚拟 数据 中 心里 的 最 重要 元 素 。 它 在 系统 的 性 能 、 可 用 性 、 可 扩展 性 和 可 管理 性 中 是 关键 的 组 成 部 分 。 传 统 上 ， 
从 资本 和 运营 成 本 的 角度 来 看 ， 它 一 直 也 是 最 昂贵 的 组 件 。 





由 于 历史 上 的 资本 支出 成 本 与 硬件 相关 ， 人 存储 基础 架构 不 仅 必 须 满足 当前 的 要 求 ， 还 要 满足 未 来 几 年 的 业务 需求 。 人 存储 及 
vSphere 架 构 师 必须 因此 尽 可 能 地 做 出 最 明智 的 选择 ， 设 计 的 解决 方案 需要 考虑 多 个 复杂 而 又 矛盾 的 业务 需求 、 技 术 目 标 、 预 测 
的 数据 增长 、 约 束 ， 当 然 还 有 预算 。 


为 了 更 有 信心 承担 vSphere 存 储 的 设计 ， 以 满足 一 系列 业务 和 组 织 类 型 的 要 求 ， 你 必须 了 解 平台 的 功能 。 设 计 一 个 解决 方 
案 ， 能 满足 客户 的 要 求 和 约束 规定 ， 需 要 以 你 的 经 验 和 知识 为 基础 ， 并 跟 上 IT 行业 的 进步 。 一 个 成 功 的 设计 需要 收集 信息 ， 关 联 
坚实 的 设计 方法 ， 理 解 设计 的 权衡 及 设计 的 决策 。 


本 书 的 主要 内 容 涉 及 VMware vSphere 软 件 定义 存储 模型 的 各 个 方面 ， 包 括 其 中 独立 的 组 件 。 在 继续 阅读 之 前 ， 你 应 该 确 
保 已 经 熟悉 核心 的 vSphere 产 品 ， 如 VMware vCenter 服 务 器 和 ESXi 一 一 基础 架构 虚拟 机 和 客户 操作 系统 所 驻 留 的 1 型 虚拟 化 
层 。 


这 里 还 假定 你 对 共享 的 存储 技术 和 网 络 有 很 好 的 理解 ， 包 括 支 持 虚拟 环境 的 广泛 的 基础 架构 ， 如 物理 交换 机 、 防 火 墙 、 服 务 
器 硬件 、 阵 列 硬件 ， 以 及 与 设备 类 型 相关 的 协议 ， 其 中 包括 但 并 不 限于 光纤 通道 、iSCSI、NFS、 以 太 网 和 FCoE。 


谁 应 该 读 这 本 书 


对 参与 设计 新 vSphere 环 境 的 基础 架构 设计 师 和 顾问 ， 以 及 负责 维护 现 有 vSphere 部 署 ， 想 要 进一步 优化 其 基础 架构 ,或 者 
获得 更 多 关于 存储 设计 知识 的 管理 员 来 说 ， 本 书 最 有 用 处 。 此 外 ， 对 拥有 VCA、VCP， 或 者 具有 好 的 基础 知识 ， 并 想 深 入 了 解 
新 的 vSphere 存 储 体系 结构 设计 过 程 的 人 来 说 ， 本 书 也 很 有 用 。 已 经 有 一 系列 vSphere 专 业 知识 ， 但 正在 寻找 一 些 额外 的 详细 知 
识 的 VCAP、VCIX 或 VCDX 候 选 人 也 将 从 本 书 中 受益 。 


本 书 内 容 


近 几 年 来 基于 VMware 的 存储 基础 架构 更 改 了 很 多 ， 新 技术 和 新 存储 逐渐 渗透 至 各 行业 巨头 ， 如 EMC、IBM 和 NetApp。 然 
而 ， 对 于 企业 IT 组 织 和 服务 提供 商 而 言 ， 存 储 平台 的 生命 周期 管理 仍然 是 一 个 持续 的 挑战 ，VMware 的 许多 全 球 客户 也 在 不 断 进 
行 硬件 的 更 新 。 


本 书 旨 在 帮助 vsphere 架 构 师 、 存 储 架 构 师 和 管理 员 ， 理 解 和 设计 新 一 代 的 VMware 的 软件 定义 存储 ， 并 通过 简单 、 无 顷 大 
量 训 练 有 素 的 存储 管理 员 去 维护 的 技术 实现 高 效 处 理 。 


此 外 ， 本 书 将 帮助 大 家 了 解 与 这 些 新 的 vSphere 存 储 选项 相关 联 的 设计 因素 。 你 将 看 到 VMware 如 何 通 过 其 软件 定义 的 存储 
产品 ( 即 Virtual SAN 和 虚拟 卷 ) 来 解决 这 些 数据 中 心 的 挑战 ， 以 及 开发 云 自动 化 的 方法 到 这 些 下 一 代 的 存储 解决 方案 上 ， 以 进 


一 步 简化 操作 。 
本 书 通过 如 下 方式 提供 了 深厚 的 知识 和 对 这 些 新 的 存储 解决 方案 的 理解 : 
* 提供 对 Virtual SAN 和 鹿 拟 卷 的 存储 技术 及 设计 的 独特 见解 。 
. 提供 这 些 技术 的 详细 的 知识 转移 ， 以 及 与 基于 VMwate 的 存储 平台 的 下 一 代 体 系 结构 相关 的 设计 因素 的 理解 。 
: 提供 部 署 存储 即 服务 ， 并 促进 企业 IT 组 织 和 服务 提供 商 通过 完全 自动 化 的 云 平台 部 署 并 维护 存储 资源 。 


. 提供 详细 和 独特 的 指导 ， 以 设计 和 部 署 延伸 的 Vittual SAN 体 系 架构 ， 包 括 一 个 解决 方案 的 示例 。 





提供 从 传统 存储 和 协议 概念 转移 的 详细 知识 ， 以 帮助 提供 VMwate 软 件 定义 存储 模型 的 语 境 。 


最 后 ， 在 写作 本 书 时 ， 我 希望 帮助 大 家 理解 所 有 这 些 新 的 vSyphere 人 存储 选项 相关 的 设计 因素 ， 为 解决 方案 架构 师 和 运营 团队 
提供 完整 的 指南 ， 为 新 一 代 技术 最 大 化 存储 设计 的 质量 。 


以 下 是 对 全 书 内 容 的 简要 介绍 。 


第 1 章 ”概述 了 vSphere 存 储 技术 的 现状 ,以 及 我 们 是 如 何 到 达 这 一 点 的 。 该 章 还 介绍 了 软件 定义 的 存储 、 存 储 资 源 的 经 济 
学 ， 以 及 局 用 存储 即 服务 。 


第 2 章 ”介绍 在 过 去 10 年 的 VMware 基础 架构 中 ， 已 经 使 用 了 的 、 传 统 和 经 典 的 存储 技术 。 借 助 于 该 章 提 供 的 背景 ， 你 将 理 
解 本 书 的 重点 ， 即 VMware vSphere 的 下 一 代 存 储 技 术 的 设计 。 


第 3 章 ”介绍 存储 连通 性 和 结构 ， 与 传统 存储 技术 以 及 包括 虚拟 卷 的 下 一 代 和 解决 方案 有 关 。 


第 4 章 ”涉及 所 有 与 YMware 的 Virtual SAN 存 储 技术 相关 的 设计 注意 事项 ， 其 中 提供 了 Virtual SAN 功 能 、 设 计 因素 和 架构 
方面 的 考虑 。 


第 5 章 ”着 重 于 一 种 类 型 的 Virtual SAN 解 决 方案 ， 即 延伸 集群 的 设计 。 将 深度 解释 这 种 解决 方案 类 型 的 具体 设计 和 实施 注 
意 事项 。 该 章 还 提供 了 一 个 Virtual SAN 延 伸 架 构 设计 的 实例 。 


第 6 章 ”解释 了 与 大 规模 部 署 Virtual SAN 超 融合 基础 架构 (通常 称 为 Web 规 模 ) 相关 的 注意 事项 。 
第 7 章 概述 了 Virtual SAN 的 用 例 ， 也 为 云 管理 平台 提供 详细 的 解决 方案 架构 ， 可 以 作为 一 个 例子 来 参考 。 


第 8 章 ”提供 了 VMware 虚拟 卷 技 术 ， 以 及 与 其 相关 的 策略 驱动 的 存储 概念 的 详情 。 该 章 还 提供 了 基础 的 知识 转移 ， 详 细 解 
释 了 与 实施 虚拟 卷 相关 的 设计 因素 和 架构 概念 。 


第 9 章 ”介绍 了 IT 组 织 和 服务 提供 商 如 何在 通过 使 用 VMware 的 云 管理 平台 技术 支持 云 的 数据 中 心服 务 中 设计 并 提供 存储 即 
服务 。 


第 10 章 ”涵盖 了 在 软件 定义 存储 的 数据 中 心 存储 内 的 存储 监控 和 预 警 设计 ， 以 确保 存储 设计 能 够 提供 端 到 端的 高 效 运营 的 
存储 平台 。 


作者 简介 


Martin Hosken 是 VMware 公 司 全 球 云 实 践 (VMware Global Cloud Practice) 部 门 的 全 球 云 架构 师 ， 这 个 部 门 从 属于 云 
服务 提供 商 的 软件 业务 部 。 


他 在 为 跨国 客户 提供 咨询 和 架构 ， 以 及 为 机 构 从 传统 的 基础 架构 转型 到 VMware 的 基于 云 的 平台 方面 有 着 丰富 的 经 验 。 他 广 
泛 而 深刻 的 物理 、 虚 拟 化 的 服务 及 平台 和 云 基础 架构 的 解决 方案 方面 的 知识 ， 源 于 他 在 全 球 架构 参与 及 领导 的 为 企业 和 云 服务 提 
供 商 服务 设计 、 开 发 大 规模 的 复杂 的 综合 技术 项 目 。 他 擅长 于 将 Cisco、EMC、IBM、HP、Dell 和 VMware 系统 设计 、 实 施 并 整 
合 到 企业 环境 及 云 服 务 提供 商 的 基础 架构 中 。 


此 外 ， 马 本 是 一 个 在 数据 中 心虚 拟 化 和 云 管 理 及 自动 化 两 个 领域 的 双重 VMware 认证 设计 专家 (VCDX#117) 。 可 
在 http://vcdx.vmware.com 碍 到 官方 VCDX 目 录 。 马 丁 还 拥有 EMC、Cisco、 微 软 和 其 他 厂商 的 一 系列 行业 认证 证 书 ， 包 括 
Windows Server MCITP 和 Windows Server 与 Messaging MCSE。 


由 于 多 年 来 对 VMware 用 户 社区 的 重大 贡献 ， 他 被 授予 年 度 VMware vExpert 称 号 。 可 
在 https://communities.vmware.com/vexpert,jspa 查 到 VMware 社区 的 vExpert 目 录 。 这 个 称号 是 因为 他 们 的 贡献 而 授予 个 人 
的 ， 他 们 分 享 知识 并 且 对 VMware 技术 充满 热情 ， 甚 至 超越 了 工作 对 他 们 的 要 求 。 马 丁 也 是 CTO 大 使 计划 (CTO Ambassador 
Program) 的 成 员 ， 他 还 负责 VMware 研发 团队 与 客户 、 合 作 伙伴 和 VMware 当地 员工 的 联系 。 可 以 在 推 特 上 关注 马丁 : 


Q@hoskenm。 


技术 审 校 人 员 简 介 


Ray Heffer 是 VMware 的 云 服 务 提 供 商 的 软件 业务 部 的 全 球 云 架构 师 。 他 也 是 双重 VMware 认证 设计 专家 (VCDX#22， 桌 
面 和 数据 中 心 ) ， 之 前 他 曾 从 事 最 终 用 户 计算 (End User Computing，EUC) 、 技 术 莒 销 和 VMware 专业 服务 ， 领 导 过 服务 提 
供 商 、 厂 家 和 政府 机 构 的 多 个 大 规模 平台 设计 。 


自 1997 年 以 来 ，Ray 在 微软 Exchange、Linux、Citrix、VMware 方 面 有 着 管理 、 设 计 和 实施 解决 方案 的 专长 。 他 2004 年 在 
英国 的 一 家 托管 公司 工作 ， 部 署 了 他 的 第 一 个 VMware 环境 。Ray 也 在 VMworld 大 会 和 VMUG 会 议 上 定期 演讲 ， 内 容 涵盖 诸如 
Linux 桌 面 和 VMware Horizon 设 计 的 最 佳 实践 等 。 


第 1 章 软件 定义 存储 设计 


VMware 是 全 球 虚 拟 化 解决 方案 的 领导 者 。VMware ESXi 软 件 提供 了 一 个 由 虚拟 化 层 (hypervisor) 构成 的 平台 ， 能 够 将 
CPU、 内 存 和 存储 资源 抽象 出 来 ， 从 而 可 以 在 同一 台 物 理 服务 器 上 同时 运行 多 个 虚拟 机 。 


为 了 成 功 地 设计 一 个 虚拟 基础 架构 ， 除 虚拟 化 层 之 外 ， 还 需 引 入 一 些 其 他 产品 ， 用 来 管理 、 监 控 和 自动 化 运行 环境 ， 并 确保 
该 环境 安全 。 和 幸运 的 是 ，VMware 提 供 了 许多 这 样 的 产品 ， 可 以 用 来 设计 端 到 端的 解决 方案 ， 并 开发 出 软件 驱动 型 《与 硬件 驱动 
型 相对 应 ) 基础 架构 。 这 种 架构 通常 称 为 软件 定义 的 数据 中 心 (Software-Defined Data Center，SDDC) ， 如 图 1-1 所 示 。 


应 用 












虚拟 机 目 虚拟 网 络 和 虚拟 存储 


be 


* 分界 
计算 网 络 存储 


材 眶 


图 1-1 软件 定义 数据 中 心 的 概念 模型 


SDDC 并 不 是 VMware 或 其 他 公司 销售 的 一 款 独 立 产品 ， 而 是 对 管理 和 编排 工具 进行 配置 ， 以 管理 、 监 控 和 操作 整个 基础 架 
构 的 一 种 方法 。 其 中 可 能 会 涉及 VMware vSphere、NSX、vRealize Automation、VvRealize Operations Manager (管理 器 ) 
和 Virtual SAN[I1 等 产品 ， 还 可 能 包括 VMware Integrated OpenStack、CloudStack 等 解决 方案 , 或 者 能 够 实现 平台 管理 和 编 
排 能 力 的 任何 定制 云 管理 解决 方案 。 


SDDC 的 主要 目的 是 实现 基础 架构 与 底层 硬件 的 分 离 ， 以 便 软 件 能 够 充分 利用 物理 网 络 、 服 务 器 和 存储 资源 。 这 意味 
着 ，SDDC 其 实 与 位 置 无 关 。 例 如 ， 它 可 能 位 于 某 个 单独 的 物理 数据 中 心 ， 也 可 能 跨越 多 个 专用 数据 中 心 ， 甚 至 有 可 能 扩展 到 混 


合 云 和 公有 云 设施 上 。 





从 最 终 用 户 的 角度 来 说 ， 通 过 SDDC 实 现 的 应 用 与 在 手机 、 桌 面 和 虚拟 桌面 界面 上 使 用 时 的 体验 完全 相同 
用 任何 设备 都 可 访问 这 些 应 用 。 


随时 随地 、 使 


但 是 ， 随 着 SDDC 基 础 架构 与 物理 硬件 实现 分 离 ， 在 整个 数据 中 心 环境 (包括 网 络 和 存储 ) 中 ， 包 括 按 需 置 备 、 隔 离 、 移 动 
性 、 速 度 和 灵活 性 等 因素 在 内 的 完整 虚拟 机 操作 模式 都 可 以 复制 ， 实 现 了 完全 可 见 性 、 安 全 性 和 扩展 性 。 


总 体 目标 是 ， 在 客户 现 有 的 物理 基础 架构 之 上 实现 SDDC， 同 时 提供 足够 的 灵活 性 ， 以 应 对 新 增 容量 和 新 部 署 需求 。 


[1 翻译 本 书 时 产品 名 称 已 更 改 为 VMware vSAN。 





译 者 注 


1.1 软件 定义 计算 


在 本 书 中 ， 软 件 定义 计算 是 指 x86 架 构 的 计算 虚拟 化 。 那 么 什么 是 虚拟 化 ?如 果 你 不 知道 这 个 问题 的 答案 ， 那 可 能 是 你 选 错 
了 书 。 不 过 ， 无 论 如 何 ， 让 我 们 先 解释 下 这 个 词 ， 以 确保 我 们 在 同一 个 语 境 里 。 


在 IT 行业 ， 虚 拟 化 这 个 术语 有 多 种 含义 。 不 过 ， 在 VMware 看 来 ， 虚 拟 化 是 一 种 用 来 对 物理 硬件 进行 抽象 化 处 理 以 实现 与 操 
作 系 统 隔离 的 技术 。 通 过 这 种 技术 ， 多 个 客户 机 操作 系统 (逻辑 服务 器 或 桌面 ) 可 以 同时 在 一 台 物 理 服务 器 上 运行 。 采 用 这 种 方 
式 时 ， 这 些 逻 辑 服 务 器 就 成 了 便携 的 虚拟 计算 资源 ， 也 就 是 我 们 说 的 虚拟 机 。 每 个 虚拟 机 以 隔离 的 方式 运行 着 自己 的 客户 机 操作 
系统 和 应 用 。 


计算 虚拟 化 由 位 于 物理 服务 器 硬件 和 虚拟 机 之 间 的 虚拟 化 层 实现 。 虚 拟 化 层 负责 为 在 物理 主机 上 运行 的 所 有 虚拟 机 提供 硬件 
资源 ， 如 CPU、 内 存 和 网 络 。 一 个 物理 服务 器 上 可 以 运行 不 同 数量 的 虚拟 机 ， 具 体 取 决 于 可 用 的 硬件 资源 量 。 


虽然 虚拟 机 只 是 一 个 逻辑 实体 ， 但 对 于 操作 系统 和 最 终 用 户 而 言 ， 虚 拟 机 就 像 一 个 拥有 自己 的 CPU、 内 存 、 网 络 控 制 器 和 
磁盘 的 物理 主机 。 在 同一 台 物 理 主机 上 运行 的 所 有 虚拟 机 共享 相同 的 底层 物理 硬件 ， 但 每 个 虚拟 机 以 分 离 的 方式 拥有 自己 的 份 
额 。 从 虚拟 化 层 的 角度 而 言 ， 每 个 虚拟 机 只 不 过 是 一 组 分 离 的 文件 ， 其 中 包括 配置 文件 、 虚 拟 磁 盘 文 件 、 日 志文 件 等 。 


VMware ESXi 软 件 提供 了 虚拟 化 层 平 台 ， 该 平台 采用 基于 底层 资源 的 设计 ， 目 的 就 是 实现 在 同一 个 物理 服务 器 硬件 上 同时 
运行 多 个 虚拟 机 。 


1.2 ”软件 定义 网 络 


传统 物理 网 络 架构 的 扩展 性 已 不 足以 满足 大 型 企业 和 云 服务 提供 商 的 需求 。 网 络 日 常 运 维 管理 工作 已 普遍 成 为 新 虚拟 负载 置 
备 过 程 中 最 耗 时 的 操作 。 软 件 定义 网 络 通过 为 虚拟 环境 提供 网 络 ， 让 网 络 管理 员 通 过 抽象 出 来 的 高 级 功能 来 管理 网 络 服务 ， 从 而 
克服 了 这 一 难题 。 


通过 联合 所 有 组 件 以 构成 一 个 SDDC 模 型 ， 可 以 提供 一 种 简单 高 效 的 机 制 来 运营 虚拟 数据 中 心平 台 。 通 过 使 用 软件 定义 网 
络 ， 在 虚拟 网 络 环境 中 置 备 和 配置 基础 架构 中 各 个 网 络 组 件 的 工作 绝 大 部 分 都 可 以 通过 编程 方式 高 效 地 完成 ， 从 而 大 大 节省 了 时 
间 。 通 过 这 种 方式 ， 网 络 管理 员 无 需 再 像 以 前 那样 必须 预先 置 备 和 配置 物理 网 络 ， 这 种 非常 不 灵活 的 方式 已 被 证 实 极 大 地 限制 了 
云 计 算 平台 的 发 展 。 


在 软件 定义 网 络 的 架构 中 ， 控 制 平面 和 数据 平面 实现 了 分 离 ， 并 从 应 用 层 抽象 出 了 底层 物理 网 络 基础 架构 。 其 结果 是 ， 企 业 
和 云 服务 提供 商 获 得 了 前 所 未 有 的 可 编程 性 、 自 动 化 和 网 络 控制 能 力 。 这 使 得 他 们 可 以 构建 出 高 度 可 扩展 且 具 备 云 计算 敏捷 性 的 
灵活 网 络 ， 并 通过 实施 如 下 措施 ， 确 保 轻松 适应 不 断 变 化 的 业务 需求 : 


对 来 自 多 个 供应 商 的 网 络 设备 进行 集中 管理 和 控制 。 


. 在 编排 和 置 备 过 程 中 ， 使 用 公共 应 用 编程 接口 (Application Program Interfaces，API) 抽象 化 处 理 底层 网 络 ， 而 无 需 逐 个 配 
置 设 备 ， 从 而 提高 自动 化 程度 和 管理 的 敏捷 性 。 


.网络 设备 的 集中 和 自动 化 管理 提升 了 网 络 的 可 靠 性 和 安全 性 ， 通 过 实现 统一 的 安全 策略 实施 模型 又 进一步 减少 了 配置 错 


* 提供 更 精细 的 网 络 控制 ， 能 够 在 网 络 会 话 、 用 户 、 设 备 和 应 用 级 别 更 广泛 地 应 用 策略 。 


NSX 是 VMware 提供 的 软件 定义 网 络 平台 ， 通 过 集成 一 系列 的 技术 来 实现 上 述 方法 。 涉 及 的 产品 包括 NSX Controller ( 控 


制 器 ) 、NSX vSwitch (虚拟 交换 机 ) 、NSX API、vCenter Server (服务 器 ) 和 NSX Manager (管理 器 ) 。 借 助 这 些 组 
件 ，NSX 能 够 创建 第 2 层 逻 辑 交 换 机 ， 从 而 实现 与 逻辑 路 由 器 、 南 北向 和 东西 向 防护 墙 、 负 载 均 衡器 、 安 全 策略 、VPN 等 组 件 的 
关联 。 


1.3 ”软件 定义 存储 


“数据 所 在 之 处 ! ”这 是 我 几 年 前 工作 过 的 某 大 型 金融 服务 组 织 的 市 场 部 门 曾 用 过 的 一 种 描述 。 该 市 场 团队 在 尝试 描述 那些 
用 来 维护 客户 数据 及 其 可 用 性 、 性 能 和 合 规 状 态 且 对 业务 非常 关键 的 存储 系统 时 ， 经 常 喜欢 这 么 说 。 


从 那 时 开始 ,我们 看 到 ，vSphere 用 来 实现 虚拟 机 和 应 用 存储 的 技术 发 生 了 巨大 变化 ， 越 来 越 多 的 存储 供应 商 试 图 跟 上 这 种 
转变 并 希望 引领 这 种 发 展 。 现 代数 据 中 心 人 存储 数据 的 方式 也 已 发 生变 化 ， 并 将 在 未 来 几 年 内 保持 这 种 变化 趋势 ， 最 终 形成 下 一 代 
数据 中 心 ， 也 就 是 人 们 通常 说 的 软件 定义 存储 。 


毫 无 疑问 ，VMware 为 全 球 的 企业 IT 组 织 和 服务 提供 商 的 数据 中 心 带 来 了 巨大 变化 ， 并 显著 改善 了 当前 IT 组 织 的 运营 管理 和 
基础 成 本 。 然 而 ， 随 着 业务 负载 需求 的 增长 ， 存 储 设备 已 无 法 跟 上 IT 组 织 对 更 灵活 的 存储 方案 的 需求 ， 包 括 更 好 的 扩展 性 、 更 高 
的 性 能 和 更 优 的 可 用 性 。 这 些 设计 上 的 挑战 已 成 为 运 维 团 队 和 |T 经 理 的 日 常 话题 。 


主要 挑战 就 在 于 ， 全 球 数 据 中 心 内 许多 最 常用 的 存储 系统 都 是 基于 过 时 的 技术 ， 管 理 复杂 ， 而 且 专 有 程度 较 高 。 这 也 就 意味 
着 ，IT 组 织 被 硬件 供应 商 的 长 期 支持 协议 所 绑 定 。 


全 球 最 大 的 一 些 云 提供 商 并 没有 受制 于 此 ， 他 们 已 在 存储 操作 扩展 方面 取得 巨大 的 成 功 。 例 如 Amazon、Microsoft 和 
Google， 他 们 通过 把 传统 存储 系统 转换 为 低 成 本 的 商用 硬件 来 实现 云 存 储 平台 扩展 ， 并 通过 利用 强大 的 软件 来 实现 可 用 性 、 数 
据 保护 、 操 作 简 化 和 性 能 方面 的 目标 。 通 过 这 种 方法 ， 同 时 任 借 规模 经 济 ， 这 些 大 的 公有 云 提供 商 拥有 了 巨大 优势 ， 与 部 署 传统 
的 集中 式 存 储 系 统 相 比 ， 其 成 本 有 了 显著 的 下 降 。 这 种 方法 就 是 人 们 所 说 的 Web-scale， 我 们 将 在 第 6 章 中 进一步 讨论 。 


本 书 的 目标 是 帮助 大 家 理解 新 的 vSphere 存 储 选 项 ， 以 及 VMware 如 何 通过 软件 定义 存储 产品 (包括 Virtual SAN 和 Virtual 
Volumes) 来 应 对 数据 中 心 面临 的 严峻 挑战 。 这 两 个 下 一 代 的 存储 解决 方案 旨 在 通过 使 用 一 些 简单 的 、 不 需要 大 量 经 过 深度 培 
训 的 存储 管理 员 进行 维护 的 技术 来 实现 效率 的 提升 。 这 也 是 软件 定义 数据 中 心 的 基本 思想 ， 它 将 彻底 改变 vSphere 数 据 中 心 存储 
的 方方面面 ， 最 终 将 这 些 虚 拟 化 层 驱动 的 概念 融入 计算 、 网 络 和 软件 定义 存储 层 设计 。 


软件 定义 存储 的 目标 是 实现 物理 存储 硬件 与 逻辑 的 分 离 ， 其 中 的 逻辑 会 确定 “数据 所 在 之 处 ”以 及 在 读 写 操作 期 间 应 用 于 虚 
拟 机 和 数据 的 存储 服务 。 


车 助 VMware 下 一 代 的 存储 产品 ， 用 户 就 能 根据 不 断 变化 的 应 用 需求 ， 更 灵活 、 更 轻松 地 调整 仓储 层 。 此 外 ， 其 目的 是 从 复 
杂 的 专用 供应 商 系统 转向 由 一 致 的 数据 连接 组 成 的 虚拟 数据 中 心 ， 以 便 通过 单个 管理 工具 集 (也 就 是 人 们 所 说 的 单一 管理 平 
台 ，single pane of glass) 实现 每 个 虚拟 机 的 完全 可 见 性 。 这 些 功能 再 加 上 低 成 本 、 自 动 化 和 以 应 用 为 中 心 的 服务 ， 已 成 为 促 
使 企业 上 T 组 织 和 云 服务 提供 商 开 始 重新 思考 他 们 的 整体 存储 架构 方法 的 主要 驱动 力 。 


接 下 来 ， 我 们 讨论 一 下 软件 定义 存储 所 不 具备 的 功能 ， 因 为 这 种 方法 有 时 并 不 能 完全 实现 存储 供应 商 经 常 在 市 场 宣传 语 中 所 
称 的 某 些 功能 。 因 为 硬件 供应 商 有 时 会 随同 自己 的 产品 销售 或 绑 定 一 些 管理 软件 ， 而 这 并 不 是 真正 的 软件 定义 解决 方案 。 同 样 ， 
一 个 部 署 了 多 个 供应 商 提供 的 不 同 存储 系统 的 数据 中 心 ， 即 使 由 单一 的 通用 软件 平台 来 管理 ， 也 不 能 称 为 软件 定义 存储 解决 方 
案 。 由 于 每 个 底层 存储 系统 仍 有 自己 的 传统 构造 块 ， 例 如 磁盘 池 和 LUN (多 辑 卷 ) ， 这 被 认为 是 一 种 联合 存储 解决 方案 ， 而 不 
是 软件 定义 存储 解决 方案 。 存 储 供应 商 有 时 会 混淆 这 两 种 方案 ， 其 实 这 也 可 以 理解 ， 因 为 他 们 总 是 想 在 自己 的 市 场 资料 中 使 用 一 


些 最 新 的 流行 语 。 


虽然 前 面 说 了 这 么 多 ， 但 实际 上 软件 定义 存储 不 只 是 一 个 软件 。 某 些 时 候 ， 还 必须 考虑 提供 存储 容量 和 性 能 的 底层 磁盘 系 
统 。 就 像 从 eBay 购买 了 一 堆 5400RPM 的 硬盘 ， 不 能 仅仅 因为 在 上 面 增加 了 一 个 智能 软件 层 ， 就 期 望 能 获得 类 似 固态 闪存 磁盘 的 
性 能 。 


1.4 VMware 存储 环境 设计 


对 于 身 为 架构 师 的 你 ， 收 集 需求 和 记录 业务 动因 肯定 是 一 项 关键 的 目标 。 你 的 首要 任务 始终 应 是 了 解 客户 的 业务 目标 、 挑 战 
和 需求 ， 然 后 才能 据 此 给 客户 推荐 合适 的 设计 。 在 此 过 程 中 ， 你 可 以 将 活动 结果 转化 成 设计 因素 、 需 求 、 限 制 、 风 险 和 假设 ， 这 
些 对 于 成 功 实现 vSphere 存 储 设计 都 是 必 不 可 少 的 。 


架构 师 使 用 许多 方式 和 方法 为 客户 提供 有 意义 的 设计 ， 以 满足 他 们 当前 或 未 来 的 需求 。 图 1-2 展 示 了 这 样 一 种 方法 ， 其 中 列 
出 的 弹性 活动 序列 基本 覆盖 了 设计 过 程 的 所 有 阶段 。 当 然 ， 许 多 组 织 都 和 有 自己 的 独特 方法 ， 期 望 能 够 控制 整个 过 程 并 实现 特定 的 
可 交付 物 和 项 目 方 法 。 


需求 中 分 析 中 计划 一 设计 


收集 信息 研究 可 交付 物 解决 方案 


图 1-2 ”设计 顺序 方法 示例 


1.4.1 技术 评估 和 和 需求 收集 


对 于 任何 设计 行为 ， 第 一 步 都 是 发 现 和 收集 准备 部 署 vSphere 存 储 的 环境 需求 。 收 集 需求 有 许多 不 同 的 方法 ， 每 种 方法 在 不 
同 的 客户 场景 中 有 不 同 的 价值 。 作 为 架构 师 ， 你 必须 使 用 最 合适 的 技术 ， 以 确保 从 所 有 相关 人 员 那 里 获取 到 完整 的 图 景 。 在 此 过 
程 中 ， 你 可 能 需要 与 1T 组 织 的 领导 和 相关 人 员 进 行 面 对 面 的 讨论 ， 积 极 与 负责 存储 运营 管理 的 团队 交谈 或 召开 网 络 会 议 ， 审 核 现 
有 的 相关 文档 。 表 1-1 列 出 了 需要 向 相关 人 员 和 运 维 团队 询问 的 一 些 问题 。 


表 1-1 需求 收集 


架构 师 的 问题 
准备 用 于 哪些 方面 ? 
将 由 谁 使 用 ? 
目的 是 什么 ? 
需要 做 什么 ? 何 时 做 ? 怎么 做 ? 


如 果 出 错 怎么 办 ? 


质量 如 何 ? 有 多 快 ? 有 多 可 靠 ? 有 多 安全 ? 


架构 目标 
专注 于 应 用 和 系统 
用 户 和 相关 人 员 
目的 和 目标 
帮助 创建 一 个 场景 
可 用 性 和 可 恢复 性 
扩展 性 、 安 全 性 和 性 能 


数量 有 多 少 ? 


在 审核 和 分 析 完 所 有 设计 因素 和 业务 动因 之 后 ， 开 始 资格 认证 以 选取 可 用 产品 并 确定 哪 种 方案 能 够 满足 客户 期 望 之 前 ， 很 重 
要 的 一 项 工作 就 是 考虑 设计 中 所 有 组 件 的 集成 。 只 有 当 数 据 架构 、 业 务 动因 、 应 用 架构 和 技术 等 要 素 都 整合 到 一 起 后 ， 才 能 在 设 


计 中 实现 所 有 组 件 的 集成 。 


所 有 问题 的 总 体 目的 就 是 对 客户 的 期 望 和 业务 目标 进行 量化 。 例 如 ， 客 户 的 期 望 和 目标 可 能 包括 : 


户 的 体验 ? 


总 体 拥有 成 本 


可 扩展 性 


: 管理 


“ 业务 连续 性 和 灾难 恢复 
速 、 可 靠 地 恢复 的 能 力 ? 


用 户 数 和 应 用 需求 : 组 织 想 要 实现 的 存储 环境 是 否 能 够 应 对 不 断 增 长 的 用 户 数 和 应 用 存储 需求 ， 而 不 会 影响 最 终 用 


组 织 是 否 希 望 为 不 同 的 业务 部 门 提供 单独 的 存储 环境 并 显著 降低 成 本 ? 
组 织 是 否 希 望 确保 存储 架构 的 容量 和 扩展 性 足以 满足 业务 持续 发 展 和 未 来 增长 的 需求 ? 
组 织 是 否 希望 提供 一 种 能 够 简化 存储 资源 管理 的 解决 方案 以 改进 工具 并 支持 新 的 方式 ? 


组 织 是 否 希 望 所 提供 的 解决 方案 有 助 于 实现 更 高 的 可 用 性 、 具 有 灾难 预防 能 力 ， 以 及 从 事故 中 快 


除了 专注 于 这 些 目标 ， 还 需要 收集 与 现 有 架构 相关 的 信息 以 及 可 能 存在 的 所 有 新 技术 需求 。 这 些 技术 需求 来 自 于 对 业务 目标 


和 环境 的 当前 状态 分 析 。 它 们 可 能 包括 : 
“ 应 用 分 类 

“ 物理 网 络 和 虚拟 网 络 的 限制 

. 主机 服务 器 方案 

“ 虚拟 机 和 负载 部 署 方法 


“ 网 络 附 加 存储 (NAS) 系统 


* 存储 区 域 网 络 (SAN) 系统 


理解 客户 的 业务 目标 极为 重要 ， 但 由 于 任何 两 个 项 目 都 不 会 完全 相同 ， 使 得 这 项 工作 颇 有 挑战 。 无 论 是 硬件 不 同 还 是 操作 系 
统 不 同 ， 抑 或 是 维护 级 别 、 物 理 / 虚 拟 服务 器 或 者 卷 的 数量 有 所 不 同 ， 新 设计 都 必须 在 每 个 客户 的 特定 基础 架构 中 对 每 一 个 组 件 


所 不 同 。 这 些 差 异 因素 必须 逐个 进行 验证 ， 以 便 确 定 能 


不 同 客户 的 高 峰 时 间 都 会 有 


够 符合 客户 设计 目标 的 最 终 配 置 。 


1.4.2 ”确立 存储 设计 因素 
对 任何 架构 而 言 ， 很 关键 的 一 步 就 是 确立 存储 设计 因素 。 然 而 ， 如 前 所 述 ， 不 同 环境 中 的 相关 要 素 会 有 所 不 同 。 尽 管 如 此 ， 
还 有 很 重要 的 一 点 是 ， 设 计 应 该 专注 于 业务 动因 和 设计 因素 ， 而 非 产品 功能 或 客户 青睐 的 存储 供应 商 的 最 新 技术 规范 。 


客户 青睐 的 存储 设备 在 过 去 曾 是 最 佳 选择 ， 但 不 管 硬件 提供 商 怎么 说， 这 些 产 品 可 能 不 再 能 适应 客户 当前 的 使 用 场景 。 
此 ， 如 果 构 建 的 架构 专注 于 硬件 规范 而 非 业务 目标 ， 很 可 能 引入 巨大 的 风险 ， 最 后 成 为 一 个 失败 的 设计 。 


虽然 每 个 客户 的 业务 动因 和 设计 因素 都 不 一 样 ， 在 准备 设计 时 需要 充分 考虑 每 个 客户 自己 的 优先 事项 和 目标 ， 但 大 家 应 该 看 
到 其 中 很 多 共有 的 特质 ， 如 图 1-3 所 示 。 


可 用 性 


存储 设计 





图 1-3 ”存储 架构 业务 驱动 因素 和 设计 因素 


1. 可 用 性 


存储 基础 架构 的 可 用 性 一 般 通 过 某 种 服务 级 别 协 议 (SLA) 来 描述 ， 通 常 表示 为 可 能 达到 的 正常 运行 时 间 百 分 比 ( 例 
如 ，99.99%) 。 要 想 提高 可 用 性 ， 可 以 采用 一 些 专 门 的 技术 ， 例 如 元 余 硬 件 、RAID 技 术 、 阵 列 镜像 或 者 通过 消除 单 点 故障 的 方 
法 来 达成 。 此 外 ， 使 用 存储 复制 、vSphere 反 关联 规则 或 Virtual SAN 延 伸 集 群 等 专门 技术 也 可 以 实现 更 高 级 别 的 可 用 性 。 一 个 
好 的 设计 应 确保 性 能 可 靠 ， 并 采用 多 种 机 制 来 恢复 服务 ， 以 确保 达到 IT 组 织 约 定 的 服务 级 别 协议 的 要 求 。 


2. 合 规 性 


合 规 性 意味 着 符合 规范 、 政 策 、 标 准 或 法 律 。 确 保 合 规 性 现 已 成 为 信息 技术 架构 师 日 常 工作 中 必 不 可 少 的 一 部 分 。 深 入 理解 
客户 必须 遵守 的 要 求 可 以 极 大 地 帮助 构建 一 个 能 满足 组 织 需求 的 设计 。 不 同 国家 和 地 区 的 合 规 性 目标 各 不 相同 。 例 如 ， 在 美国 ， 
架构 师 可 能 需要 熟悉 SOA (Sarbanes-Oxley Act of 2002，2002 年 萨 班 斯 法 案 ) ， 或 者 HIPAA (Health Insurance Portability 
and Accountability Act of 1996，1996 年 健康 保险 携带 和 责任 法 案 ) 。 此 外 ， 还 有 一 些 全 球 性 的 合 规 性 标准 ， 如 PCI 


DSS (Payment Card Industry Data Security Standard， 支 付 卡 行业 数据 安全 标准 ) ， 这 些 标 准 在 全 球 适 用 。 


3. 适 用 性 


适用 性 是 指 存 储 平台 日 常 操作 的 易学 性 和 易 用 性 。 对 于 架构 师 而 言 ， 任 务 之 一 就 是 确保 在 你 离开 或 参与 其 他 项 目 后 ， 客 户 的 
运 维 团队 或 管理 员 可 以 接管 整个 环境 。 当 然 ， 这 与 易 管理 性 也 有 关联 ; 客户 可 能 会 要 求 你 提供 操作 文档 ， 或 者 按照 工作 职责 的 规 
定 完 成 知识 传授 与 培训 。 


4. 预 算 


不 笠 的 是 ， 几 乎 任何 项 目的 预算 都 是 有 限制 的 。 在 利益 相关 者 眼 里 ， 成 本 总 是 首要 的 天 注 要 素 。 作 为 架构 师 ， 你 可 能 会 发 现 
经 常 要 由 你 来 解释 与 设计 相关 的 成 本 。 以 我 个 人 的 经 验 ， 我 敢 保证 ，CFO 和 他 们 的 代表 会 有 些 吊 吊 逼 人 ， 总 是 喜欢 问 一 些 让 人 
难以 回答 、 很 有 挑战 性 的 问题 〈 公 平地 说 ， 他 们 做 这 一 切 只 不 过 是 想 确 认 成 本 ， 我 们 不 该 对 他 们 太 过 责难 ) 。 你 的 目标 是 在 不 超 
预算 的 情况 下 满足 组 织 的 业务 需求 。 如 果 这 不 可 能 ， 你 必须 能 向 组 织 内 那些 掌握 财政 大 权 的 关键 相关 人 员 解 释 并 证 明 行动 方案 最 


佳 。 


预算 取决 于 多 种 因素 。 预 算数 目 可 能 很 小 ， 你 可 以 将 其 视 为 对 设计 的 一 种 约束 。 理 想 情 况 下 ， 设 计 应 专注 于 系统 就 绪 、 性 能 
和 容量 ， 目 标 是 提供 能 够 满足 未 来 需求 的 一 流 解 决 方案 ， 而 完全 不 必 考 虑 成 本 。 然 而 ， 这 种 情况 毕竟 极其 少见 ; 通常， 架构 师 的 
任务 就 是 在 考虑 所 有 需求 的 情况 下 ， 用 尽 可 能 最 低 的 预算 提供 最 佳 的 解决 方案 。 作 为 架构 师 ， 你 虽然 无 需 对 设计 的 财务 方面 负 
责 ， 但 对 预算 限制 有 所 了 解 并 在 必要 时 证 明 其 价值 所 在 往往 会 很 有 用 。 








5. 易 管理 性 


对 于 这 个 设计 因素 ， 你 必须 始终 记 住 一 点 : KISS (keep it standardized and simple， 保 持 标准 化 和 简单 化 ) 。 创 建 一 个 
过 于 复杂 的 设计 将 会 严重 影响 环境 的 易 管理 性 。 还 有 ， 过 于 复杂 的 设计 还 很 容易 导致 故障 ， 因 为 运 维 团队 可 能 无 法 理解 这 个 设 
计 ， 而 且 更 改革 个 组 件 时 可 能 会 影响 其 他 组 件 。 你 的 目标 应 该 是 在 确保 满足 业务 目标 的 同时 让 设计 尽 可 能 地 简单 ， 目 的 就 是 要 让 
设计 对 于 运 维 团 队 而 言 易于 部 署 、 易 于 管理 和 维护 ， 而 且 在 未 来 需要 时 易于 更 新 和 升级 。 


6. 目 标 


每 个 项 目 设计 的 关键 目标 会 有 所 不 同 。 但 一 般 而 言 ， 一 个 好 的 设计 不 应 过 于 复杂 ， 能 够 提供 详细 的 文档 (包括 设计 决策 的 理 
论 基础 ) ， 可 以 很 好 地 平衡 组 织 需求 与 技术 最 佳 实践 ， 在 存储 平台 的 设计 、 实 施 、 测 试 和 交付 等 各 个 环节 与 关键 的 相关 人 员 及 客 
户 方 的 主题 专家 积极 交流 。 


7. 安 全 和 治理 


毋庸 置疑 ， 在 当今 每 一 个 企业 IT 组 织 和 云 服务 提供 商 的 项 目 中 ， 安 全 都 是 非常 天 键 的 要 素 。 在 我 曾 参与 过 的 一 些 涉及 政府 机 
构 和 人 金融 机 构 的 项 目 中 ， 几 乎 设计 的 每 一 个 环节 都 与 安全 要 素 及 需求 息息相关 。 无 论 是 运 维 规划 还 是 预算 ， 安 全 要 素 都 对 它们 有 
着 非常 显著 的 影响 。 


8 .标准 


企业 组 织 或 云 服务 提 供 商 通常 都 有 一 套 标 准 ， 并 要 求 所 有 项 目 满 足 这 些 标准 。 我 们 期 望 这 些 标准 包含 清晰 的 方法 ， 可 以 帮助 
确定 利益 相关 者 ， 明 确 最 密切 相关 的 业务 动因 ， 并 为 所 有 的 决策 活动 提供 透明 性 和 可 追踪 性 。 标 准 还 可 能 针对 设计 、 实 施 、 测 试 
和 验证 过 程 定义 了 一 套 可 重复 使 用 的 方法 ， 方 便 移 交 给 运 维 团队 。 


与 可 用 性 一 样 ， 性 能 一 般 也 通过 服务 级 别 协 议 来 衡量 。 设 计 必 须 满足 客户 提出 的 各 种 性 能 需求 。 性 能 通常 由 可 获得 的 吞吐 
量 、 延 时 、1IOPs3 或 者 其 他 适合 客户 的 既定 衡量 指标 来 表示 。 相 比 容量 和 可 用 性 ， 人 们 对 存储 性 能 或 许 不 甚 了 解 。 但 在 虚拟 基础 
架构 中 ， 整 个 环境 里 对 整体 性 能 影响 最 大 的 莫 过 于 存储 平台 。 


10. 可 恢复 性 


与 可 用 性 及 性 能 一 样 ， 可 恢复 性 通常 也 通过 服务 级 别 协 议 来 衡量 。 设 计 必须 考虑 在 出 现任 何故 障 情况 下 基础 架构 的 可 恢复 能 
力 。 通 常 使 用 以 下 两 个 衡量 指标 来 定义 可 恢复 性 : RTO (Recovery Time Objective， 恢 复 时 间 目 标 ) ， 表 示 从 业务 中 断 开始 到 


11. 可 扩展 性 


设计 应 该 可 扩展 ， 能 够 在 客户 的 数据 需求 发 生变 化 以 及 存储 平台 需要 扩展 时 灵活 调整 。 在 项 目 实 施 过 程 中 ， 很 重要 的 一 步 就 
是 针对 数据 容量 和 未 来 可 能 出 现 的 性 能 需求 制定 业务 增长 计划 。 这 种 信息 通常 以 年 度 增长 百分比 来 提供 ， 设 计时 需要 充分 考虑 这 
些 要 素 。 了 解 这 些 信息 后 ， 我 们 可 以 采用 构建 块 的 方法 进行 存储 设计 ; 不 过 目前 最 重要 的 是 ， 客 户 应 该 清晰 地 了 解 环境 需求 的 增 
长 趋势 ， 因 为 这 种 变化 必定 会 影响 设计 。 


12. 容 量 


设计 应 考虑 的 容量 需求 通常 可 以 从 业务 增长 或 鞭 缩 趋势 看 出 来 。 容量 通常 是 一 个 预 估 值 ， 可 以 按 需 置 备 ， 因 为 这 个 过 程 一 般 
比较 简单 ， 对 大 多 数 存 储 阵列 或 主机 而 言 ， 无 非 就 是 增加 一 些 磁盘 或 机 柜 ， 并 不 需要 停机 。 因 此 ， 容 量 管 理 相对 比较 简单 ， 但 在 
存储 设计 中 ， 这 依然 是 不 可 忽视 的 一 个 重要 方面 。 


1.5 存储 经 济 性 


乍 看 起 来 ， 存 储 技术 很 像 计 算 资 源 ， 也 应 根据 商用 硬件 型 号 来 定价 ， 但 实际 情况 通常 并 非 如 此 。 如 图 1-4 所 示 ， 物 理 存 储 裸 
磁盘 每 GB 的 成 本 每 年 都 在 下 降 ， 而 县 从 20 世 纪 80 年 代 中 期 开始 就 在 持续 下 降 。 


如 大 家 所 料 ， 随 着 存储 成 本 的 下 降 ， 从 单个 驱动 器 的 裸 磁 盘 容 量 考虑 ， 云 服务 提供 商 收 取 的 每 GB 费用 也 在 下 降 。 如 图 1-5 所 
示 ， 物 理 磁 盘 的 可 用 容量 越 来 越 大 ， 而 成 本 却 越 来 越 低 。 


尽管 裸 磁 盘存 储 容量 、 机 架 、 用 于 构建 磁盘 阵列 的 磁盘 柜 以 及 用 于 将 磁盘 组 织 为 更 大 的 RAID (redundant array of 
independent disk， 独 立 磁盘 的 宛 余 阵列 ) 或 JBOD (just a bunch of disk， 只 是 一 组 磁盘 ) 的 存储 控制 器 的 成 本 在 逐步 下 
降 ， 而 且 供 应 商 已 越 来 越 多 地 使 用 商用 组 件 ， 但 供应 商 针对 他 们 的 技术 制定 的 价格 却 一 年 比 一 年 高 。 
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图 1-4 ”硬盘 驱动 器 每 GB 成 本 


之 所 以 会 出 现 这 种 情况 ， 原 因 就 在 于 供应 商 的 软件 仍 在 不 断 开发 中 ， 正 在 变 得 越 来 越 复杂 。 例 如 ， 一 个 由 商用 组 件 组 成 的 阵 
列 ， 在 机 架 上 堆 径 了 300 个 2TB 的 磁盘 ， 其 硬件 成 本 总 计 在 4000 美 元 左右 。 然 而 ， 该 阵列 的 最 终 供应 商 向 制造 商 提 供 的 建议 零售 
价 可 能 达到 40 万 美元 。 这 个 价格 的 依据 是 硬件 供应 商 增 加 了 闭 源 (secret source) 软件 ， 使 得 商用 硬件 具备 了 诸如 易 管 理性 、 
可 用 性 等 特性 ， 能 够 满足 客户 的 性 能 需求 ， 同 时 也 给 供应 商 的 产品 带 来 了 有 别 于 竞争 产品 的 差异 化 优势 。 正 是 这 种 因素 导致 了 存 
储 技术 的 成 本 显著 增加 ， 至 于 供应 商 增加 的 软件 实际 能 带 来 多 大 价值 以 及 客户 实际 使 用 了 哪些 增加 的 功能 ， 却 完全 被 忽视 。 
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图 1-5 硬盘 驱动 器 容量 增加 


因此 ， 无 论 是 购买 还 是 租用 ， 在 获取 存储 资源 时 都 不 得 不 考虑 存储 成 本 和 其 他 一 些 要 素 ， 这 也 是 IT 组 织 不 断 试图 延长 存储 硬 
件 使 用 寿命 的 原因 。10 年 前 ，IT 组 织 购买 具有 3 年 使 用 寿命 的 硬件 。 今 天 ， 同 样 的 IT 组 织 一 般 在 购买 硬件 时 会 希望 获得 5 ~ 7 年 的 
使 用 寿命 。 一 大 挑战 是 ， 大 多 数 硬件 和 软件 附带 为 期 3 年 的 支持 合同 和 保修 服务 ， 到 期 后 续 约 的 成 本 有 时 都 抵 得 上 购买 全 新 阵列 
的 费用 。 


存储 的 另 一 个 需 考虑 的 重要 情形 是 ， 硬 件 采 购 大 约 只 点 预 估 的 年 度 TCO (Total Cost of Ownership， 总 体 拥 有 成 本 ) 的 
20%。 很 显然 ， 这 会 超出 采购 成 本 或 资本 支出 (CapEx) 限额 ， 也 使 得 运 维和 管理 成 本 (OpEx) 成 为 超出 许多 1T 组 织 初始 设计 
和 成 本 预 估 的 一 大 关键 要 素 。 


1.5.1 计算 存储 资源 的 总 体 拥有 成 本 


如 图 1-6 所 示 ， 在 存储 设备 总 体 拥有 成 本 的 背后 ， 运 维 管理 、 灾 难 恢复 和 环境 成 本 才 是 真正 的 影响 因素 。 
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(OpEx) 








图 1-6 ”存储 硬件 总 体 拥有 成 本 细 分 


影响 运 维 成 本 的 要 素 之 一 是 企业 存储 基础 架构 的 异 构 性 。 这 种 特性 显然 为 实施 统一 的 管理 方法 带 来 了 更 大 的 挑战 ， 也 相应 地 
增加 了 成 本 。 为 此 ， 一些 iT 组织 将 他 们 的 异 构 存储 平台 更 换 为 同 构 性 更 高 的 组 件 。 但 通常 而 言 ， 更 换 环 境 是 为 了 采用 最 新 、 最 好 
的 技术 ,或 者 尝试 通过 整合 多 个 供应 商 的 硬件 来 实现 分 层 存 储 。 存 储 供应 商 经 常 无 法 针对 不 同 的 负载 或 数据 使 用 场景 提供 不 同 的 
产品 组 合 。 而 且 ， 对 于 那些 提供 多 种 产品 却 无 法 提供 适用 于 所 有 存储 产品 组 合 的 统一 管理 平台 的 供应 商 而 言 ， 这 个 问题 尤为 严 


重 。 如 果 供 应 商 是 通过 商业 收购 获得 的 技术 ， 就 更 是 如 此 。 


可 以 使 用 图 1-7 中 的 简化 公式 来 预 估 在 硬件 整个 生命 周期 内 每 年 的 总 体 拥 有 成 本 。 


存储 设备 成 本 + 保修 与 维护 费用 + 软件 许可 


协议 费用 | 
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， ”预计 年 度 服务 费 x 年 度 运 维 支出 成 本 ， 
(大 约 4x 运 维 支出 ) 
= 运 维 支出 成 本 


图 1-7 简化 的 年 度 总 体 拥有 成 本 


计算 存储 成 本 时 应 考虑 的 另 一 个 方面 是 ， 存 储 容量 将 如 何 有 效 地 分 配 到 合适 的 存储 层 。 利 用 效率 可 以 衡量 存储 容量 如 何 根据 
访问 频率 、 数 据 的 可 用 性 需求 或 所 要 求 的 响应 时 间 等 要 素 有 效 地 分 配 到 正确 的 存储 类 型 。 


盯 组 织 很 多 时 候 都 不 能 有 效 地 使 用 存储 容量 。 他 们 经 常 使 用 第 一 层 存 储 来 保存 负载 数据 或 应 用 数据 ， 而 这 些 数据 实际 上 并 不 
需要 那些 昂贵 硬件 所 提供 的 高 性 能 特性 。 分 层 存 储 应 该 可 以 按照 业务 上 的 要 求 ， 根 据 性 能 和 容量 的 合理 成 本 需求 来 放置 数据 。 但 
现在 出 现 了 一 种 新 的 趋势 ， 就 是 在 利用 超 融 合 存储 模型 时 ， 通 过 例如 由 Hadoop (及 其 他 技术 ) 提供 的 产品 策略 实现 扁平 式 存 
储 ， 这 种 趋势 正在 彻底 消除 对 分 层 人 存储 的 需求 。 

IT 组 织 通常 要 负责 确定 存储 层级 、 使 用 的 存储 技术 以 及 表示 每 种 存储 类 别 的 业务 数据 的 最 优 比例 。 如 果 做 不 好 这 些 ， 宫 无 疑 
问 ， 将 导致 每 GB 存储 成 本 剧 增 ， 并 最 终 导致 整个 存储 平台 的 总 体 拥有 成 本 飞涨 。 

图 1-8 显 示 了 一 个 分 层 存 储 示 例 。 某 企业 的 IT 组 织 使 用 每 GB 成 本 模型 来 为 特定 类 型 的 负载 选择 成 本 合适 的 存储 。 例 如 ， 假 设 
该 IT 组 织 需 要 100TB 和 存储， 仪 使 用 两 层 存 储 (本 例 中 的 第 1 层 和 第 2 层 ) ， 总 的 磁盘 成 本 大 约 为 765000 美 元 。 然 而 ， 按 图 1-8 所 示 
比例 进行 分 离 后 形成 的 4 层 存 储 也 能 满足 同样 的 存储 需求 ， 但 成 本 只 需要 482250 美 元 ， 节 省 了 282750 美 元 ， 或 者 相 比 原来 减少 
了 379% 的 成 本 。[] 


国 国 $2.00 40%~60% 数 据 来 自 存 档 、 





第 4 层 $0.20 。 同 定 内 容 、 合 规 和 参考 数据 
上 8.00 20%~25% 数 据 位 于 中 端 阵列 中 ， 使 用 10/ 
第 3 层 $1.00 15k SAS 稚 : 关键 、 敏 感 和 重要 业务 数据 
加 $20.00 12%0~20% 数 据 位 于 高 性 能 磁盘 阵列 中 : 关键 
第 2 层 $7.00 业务 、OLTP、 创 收 和 面向 客户 的 应 用 
[ER $100.00 1%6~3% 数 据 位 于 SSD 中 : IO 
第 1 层 $50.00 密集 型 、 响 应 时 间 至 关 重 要 
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图 1-8 ”每 GB 存储 成 本 示例 


正如 大 家 所 见 ， 企 业 IT 组 织 如 果 不 使 用 这 类 分 层 存 储 策略 来 根据 访问 频率 和 其 他 标准 跨 存储 层 移动 数据 ， 存 储 的 利用 效率 将 
会 很 低 ， 从 而 导致 存储 平台 内 存储 资源 的 总 体 拥有 成 本 显著 增加 。 


[1 该 计算 采用 100TB 存 储 ， 部 署 成 本 如 下 : 每 GB 闪 存 50 一 100 美 元 〈 占 第 1 层 的 1% 一 3%) ， 每 GB 快速 磁盘 7~20 美 元 ( 占 第 1 层 
的 12% 一 20%) ， 每 GB 容量 磁盘 1 ~8 美 元 ( 占 第 3 层 的 20%~25%) ， 每 GB 低 性 能 、 高 容量 存储 约 0.20 一 2 美元 ( 占 第 4 层 的 40% 
一 60%) ， 总 计 约 482250 美 元 。 若 把 同样 的 容量 需求 仅 拆 分 到 第 2 层 和 第 3 层 上 ， 并 按 每 种 类 型 存储 每 GB 的 预计 成 本 范围 进行 计 
算 ， 预计 存储 基础 架构 成 本 会 达到 765000 美 元 。 





1.5.2 ”信息 生命 周期 管理 


信息 生命 周期 管理 (Information Lifecycle Management，ILM) 是 在 数据 的 整个 生命 周期 内 ， 企 业 用 来 确保 数据 可 用 
性 、 容 量 和 性 能 的 一 个 主要 方法 。 当 我 们 为 业务 系统 设计 存储 解决 方案 时 ， 一 个 关键 的 业务 需求 是 ， 你 必须 理解 客户 在 处 理 业 务 
数据 时 使 用 的 ILM 策 略 。 


现代 企业 和 组 织 必须 应 对 信息 管理 和 信息 不 断 增长 所 带 来 的 挑战 ， 因 为 业务 数据 及 其 使 用 方式 在 决定 业务 成 功 方面 正 发 挥 着 
越 来 越 重 要 的 作用 。 例 如 ， 类 似 Amazon (美国 亚马逊 ) 和 Rakuten (日 本 乐天 ) 这 样 的 公司 正 是 利用 业务 数据 获得 了 超越 竞争 
对 手 的 战略 优势 。 他 们 会 根据 客户 的 购买 历史 记录 来 分 析 和 确定 客户 可 能 想 购买 的 货物 ， 这 种 方法 为 他 们 带 来 了 显著 的 竞争 优 
势 。 此 外 ， 这 些 企业 通过 了 解 每 个 用 户 的 购买 习惯 (例如 很 典型 的 一 个 现象 是 在 每 月 发 薪 后 的 几 日 内 完成 所 有 订单 ) ， 可 以 根据 
个 人 的 购买 历史 记录 和 购买 档案 ， 以 定制 的 电子 邮件 形式 ， 在 准确 的 时 间 把 特定 的 产品 投放 给 特定 的 客户 。 


另 一 个 重要 的 考虑 因素 是 数据 价值 会 随时 间 怎 样 变 化 。 例 如 ， 如 果 某 个 客户 停止 购物 并 关闭 了 账户 ， 根 据 法 律 要 求 ， 应 该 在 
一 段 时 间 后 删除 相关 数据 。 因 此 ， 信 息 在 不 同时 间 段 对 业务 的 价值 会 有 所 不 同 。 对 许多 企业 而 言 ， 了 解 组 织 如 何 使 用 数据 以 及 信 
息 在 其 生命 周期 内 的 价值 可 能 是 存储 设计 过 程 中 的 核心 环节 ， 如 图 1-9 所 示 。 


数据 和 信息 增长 >> 数据 和 信息 战略 价值 >> 信息 和 数据 生命 周期 贬值 


* 在 预算 内 扩展 存储 基础 “ 通过 使 用 分 层 存 储 平台 * 根据 业务 价值 确定 信息 
窜 “ 架 构 提高 资产 利用 率 和 数据 的 优先 级 
亲 “ 扩展 复杂 的 存储 资源 “通过 存储 架构 自动 简化 
存储 管理 


" 通过 使 用 分 层 存 储 平台 " 通过 部 署 经 济 高 效 的 存 
提高 资产 利用 率 储 解决 方案 来 实现 可 访 
问 性 、 可 用 性 和 数据 保护 


" 部署 存储 解决 方案 ， 通 
过 结合 存储 和 数据 资产 
价值 并 提供 存储 管理 自 


* 通过 存储 架构 自动 简化 


理 确保 数据 和 信息 合 规 


动 化 ， 确 保 以 最 小 TCO 
实现 最 大 价值 





图 1-9 信息 生命 周期 管理 关键 挑战 


另外 非常 重要 的 一 点 是 ， 信 息 生命 周期 管理 是 企业 或 组 织 采用 的 战略 ， 而 非 产品 或 服务 战略 。 这 个 战略 必须 具有 前 瞻 性 并 能 
不 断 调整 ， 才 能 有 助 于 针对 存储 系统 增长 进行 合理 规划 ; 此 外 ， 它 还 必须 能 够 体现 信息 对 企业 的 价值 。 


在 大 型 组 织 中 ， 实 施 信息 生命 周期 管理 战略 可 能 会 耗费 相当 多 的 时 间 ， 但 它 也 能 给 企业 带 来 众多 优势 ， 帮 助 企 业 直接 克服 业 
务 挑战 ， 并 有 助 于 实施 信息 管理 和 提高 利用 率 。 与 存储 平台 架构 的 信息 生命 周期 管理 战略 相关 的 关键 设计 考虑 要 素 包括 : 


" 通过 使 用 分 层 存 储 平台 提高 利用 率 ， 提 高 所 有 企业 信息 的 可 见 性 并 提供 存档 能 力 

: 提供 简化 的 存储 管理 工具 ， 提 高 日 常 存储 运 维 过 程 的 自动 化 程度 

* 实施 广泛 的 备份 、 数 据 保护 和 恢复 方案 ， 在 业务 持续 性 与 数据 丢失 成 本 之 间 获 得 最 佳 平衡 
通过 控制 数据 存放 并 充分 了 解 什么 数据 需要 保护 以 及 保护 多 长 时 间 ， 简 化 合 规 和 监管 需求 


“ 在 持续 达到 企业 所 需 服务 级 别 的 同时 降低 总 体 拥有 成 本 ， 兼 顾 存储 管理 成 本 与 数据 价值 目标 ， 杜 绝 存 储 资源 浪费 并 避免 环 


“ 提供 分 层 存储 解决 方案 ， 避 免 低 价值 数据 占用 本 应 用 于 高 价值 数据 且 每 GB 成 本 较 高 的 存储 资源 


1.6 实施 软件 定义 存储 战略 


如 前 所 述 ， 随 着 企业 级 存储 的 成 本 不 断 增加 ， 其 结果 是 ，IT 行 业 把 更 多 的 目光 投向 了 新 的 存储 架构 和 技术 ， 目 的 就 是 希望 降 
低 存 储 的 总 体 拥有 成 本 。 他 们 采取 这 种 方法 就 是 希望 通过 减少 自 有 硬件 并 代 之 以 纯 商 用 组 件 ， 将 隐形 软件 从 控制 器 上 移 除 并 放置 
到 由 虚拟 化 层 或 软件 定义 存储 模型 提供 的 公共 存储 软件 层 上 ， 最 终 达 到 减少 CapEx (资本 支出 ) 和 OpEx (运营 成 本 ) 的 目的 。 


过 去 ,他们 已 做 了 很 多 尝试 ， 希 望 开发 一 个 通用 的 管理 系统 ， 以 摆脱 各 个 存储 硬件 和 软件 供应 商 的 束缚 。 例 如 ， 全 球 存储 网 
络 行业 协会 (Storage Networking Industry Association，SNIA) 开发 了 存储 管理 计划 规范 (Storage Management 


Initiative Specification，SMI-S) ; World Wide Web Consortium (W3C) 开发 了 表现 层 状态 传递 规范 (Representational 
State Transfer，REST) 。 然 而 ， 此 类 规范 在 存储 行业 的 应 用 非常 有 限 。 对 于 大 企业 的 IT 组 织 或 云 服务 提供 商 而 言 ， 为 了 实现 有 
限 的 互 操作 性 并 提供 单 点 管理 和 支持 ， 唯 一 可 行 的 方案 就 是 部 署 单个 硬件 供应 商 提 供 的 同 构 化 存储 平台 来 管理 运 维 开销 ， 最 终 达 
到 降低 运营 成 本 的 目的 。 


软件 定义 存储 模型 的 原理 是 ， 打 破 专 有 供应 商 存 储 硬件 之 间 的 互 操作 性 壁垒 ， 便 于 跨 公共 平面 进行 管理 。 对 于 大 多 数 IT 组 织 
来 说 ， 不 同 供应 商 提 供 的 存储 ， 甚 至 同一 供应 商 提 供 的 不 同 存储 阵列 硬件 型 号 ， 会 形成 彼此 隔离 的 存储 孤岛 。 它 们 之 间 难 以 进行 
互 操 作 和 共享 资源 ， 甚 至 无 法 从 单个 平台 跨 这 些 孤 岛 进行 管理 。 


软件 定义 存储 模型 的 目标 是 ， 通 过 提高 存储 利用 率 和 提供 更 灵活 的 平台 管理 来 节省 运 维 成 本 ， 而 这 些 一 般 是 通过 提供 适用 于 
所 有 存储 基础 架构 的 自动 化 和 通用 管理 界面 来 实现 的 。 因 此 ， 企 业 IT 组 织 和 云 服务 提供 商 面临 的 挑战 是 要 找到 一 个 正确 的 软件 定 
义 存 储 解 决 方案 ， 确 保 能 够 在 一 个 通用 用 户 界 面 中 使 用 简单 而 统一 的 运 维 步骤 ， 对 整个 基础 架构 应 用 适当 的 集中 式 软件 服务 。 


软件 定义 存储 模型 的 另 一 个 目标 是 ， 通 过 从 专 有 存储 硬件 迁移 到 有 助 于 跨 存储 基础 架构 的 所 有 组 件 实现 统一 管理 的 技术 来 减 
少 资本 支出 。 在 考虑 使 用 硬件 解决 方案 来 实现 基于 软件 定义 存储 的 环境 时 ，IT 管 理 层 也 许 会 关注 如 何 降 低 存 储 资源 的 总 体 拥有 成 
本 。 下 面 提 供 了 一 个 购买 指南 ，IT 组 织 在 与 存储 供应 商 合 作 以 确定 核心 存储 需求 时 可 以 参考 。 


* 哪 种 存储 解决 方案 能 够 支持 我 们 当前 及 未 来 的 各 种 应 用 、 虚 拟 化 层 和 数据 ? 

* 哪 种 存储 解决 方案 能 够 提升 应 用 性 能 ? 

* 哪 种 存储 解决 方案 能 够 提供 所 需 的 数据 可 用 性 ? 

* 哪 种 存储 解决 方案 能 够 利用 现 有 的 技能 快速 、 高 效 地 进行 部 署 、 配 置 和 管理 ? 

' 哪 种 存储 解决 方案 能 够 提供 更 大 或 最 优 的 存储 容量 ? 

* 哪 种 存储 解决 方案 最 有 助 于 提高 灵活 性 〈 未 来 能 够 在 不 影响 应 用 的 情况 下 实现 扩容 或 性 能 提升 ) ? 


* 哪 种 存储 解决 方案 能 够 实现 自动 化 和 集中 管理 能 力 ? 








* 哪 种 存储 解决 方案 能 够 在 可 用 预算 内 满足 前 述 各 种 需求 ? 








IT 组 织 最 常 采用 的 做 法 是 效仿 那些 值得 信赖 的 存储 供应 商 。 然 而 ， 对 于 IT 决策 者 而 言 ， 一 个 关键 挑战 是 ， 如 何 超越 当前 趋势 
放眼 未 来 ， 确 保 提供 的 战略 性 解决 方案 不 仅 能 够 以 可 接受 的 成 本 满足 当前 的 存储 需求 ， 而 且 能 够 应 对 各 业务 线 此 后 几 年 甚至 是 下 
一 个 10 年 的 存储 需求 。 这 将 要 求 对 多 种 方案 及 其 成 本 做 出 敏锐 的 主观 评估 ， 评 估 还 包括 可 通过 必要 的 存储 功能 来 优化 资本 支出 
和 运营 成 本 的 备 选 方法 。 


男 一 个 不 容 忽 视 的 挑战 是 ， 说 服 决策 者 并 使 其 了 解 复杂 的 存储 技术 以 获得 预算 批准 是 有 一 定 难 度 的 。 企 业 IT 管 理 层 很 少 过 问 
对 不 断 增长 的 业务 数据 进行 存储 和 保留 的 需求 。 然 而 ， 要 说 明 不 同人 存储 产品 的 区 别 以 及 各 自 的 优 缺 点 ， 往 往 需要 传授 技术 知识 ， 
只 有 这 样 ， 才 能 让 决策 者 理解 概念 ， 清 楚 架 构 师 面 临 哪些 挑战 ， 以 及 这 些 挑战 与 存储 平台 设计 之 间 有 什么 关系 。 


当 企 业 资金 紧张 时 (确实 经 常会 面临 这 样 的 局 面 ) ， 存 储 基 础 架构 的 高 昂 支 出 会 远 远 超出 上 管理 层 制定 的 年 度 预算 。 通 过 检 
查 现 有 存储 环境 并 计算 存储 资源 的 总 体 拥有 成 本 ，IT 组 织 可 以 寻求 其 他 的 创新 方法 。 通 过 软件 定义 存储 模型 ， 他 们 不 必 在 应 用 性 
能 、 容 量 、 可 用 性 或 其 他 数据 相关 服务 上 做 出 任何 妥协 ， 就 可 以 解决 资本 支出 和 运营 支出 难题 。 


1.7 ”软件 定义 存储 概要 


VMware 引入 了 x86 服 务 器 虚拟 化 ， 改 善 了 计算 平台 的 成 本 度量 和 利用 效率 。 同 样 ， 我 们 也 可 以 利用 软件 定义 存储 模型 来 确 
保 最 有 效 地 利用 存储 基础 架构 ， 通 过 节省 存储 采购 和 运 维 成 本 来 降低 总 体 拥有 成 本 。 


在 软件 定义 存储 的 数据 中 心 内 ， 无 论 是 直接 连接 的 超 融 合 Virtual SAN ， 还 是 连接 了 SAN 并 可 充分 利用 支持 Virtual 
Volumes 的 阵列 的 存储 ， 所 有 存储 都 可 以 用 作 存 储 资 源 池 的 一 部 分 。 这 样 ， 我 们 就 不 必 一 次 性 拆除 并 更 换 现 有 的 所 有 存储 基础 
架构 ， 一 步 到 位 地 迁移 到 完全 超 融 合 统一 存储 模型 ， 而 是 可 以 让 IT 组 织 把 更 新 整个 存储 基础 架构 的 成 本 分 挫 到 今后 数 年 。 


这 只 是 其 中 一 个 存储 策略 。 同 样 ， 我 们 也 可 以 混合 使 用 Virtual Volumes 和 Virtual SAN 作 为 长 期 设计 ， 在 特定 使 用 场景 和 
负载 下 有 效 地 利用 这 两 种 解决 方案 ， 如 图 1-10 所 示 。 
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图 1-10 ”Vittual Volumes 和 Virtual SAN 混 合 平 台 


与 传统 的 存储 模型 类 似 ， 采 用 软件 定义 存储 的 大 企业 用 户 和 云 服务 提供 商 通常 应 该 将 资源 配置 成 地。 每 个 池 可 以 由 不 同 的 特 
性 和 服务 组 成 。 


例如 ， 由 Virtual SAN 构 成 的 第 1 层 池 可 以 专用 于 性 能 要 求 高 和 对 业务 关键 的 负载 ， 而 由 全 闪存 磁盘 组 构成 的 第 0 层 池 可 以 专 
门 为 特定 的 MO 密集 型 负载 提供 存储 资源 。 在 类 似 的 模型 中 ， 也 可 以 向 池 中 加 入 一 些 高 容量 但 低 成 本 、 低 性 能 的 磁盘 ， 以 专门 用 
于 存储 很 少 被 问 或 更 新 的 数据 。 采 用 这 种 方法 进行 存储 置 备 ， 软 件 定 义 存储 模型 仍 可 以 实现 分 层 存储 策略 ， 以 提高 容量 利用 率 和 

此 外 ， 通 过 实现 软件 定义 存储 模型 ， 可 以 在 整个 存储 平台 上 应 用 精简 置 备 、 压 缩 和 去 重 等 技术 ， 而 不 必 将 这 些 功能 隔离 在 特 
定 硬 件 控制 器 的 后 面 。 这 样 有 助 于 确保 通过 全 局 存储 策略 更 有 效 地 使 用 存储 容量 。 


利用 这 些 技术 ， 无 需 再 急于 向 基础 架构 添加 新 容量 ， 并 有 助 于 确定 应 该 将 合适 的 低 成 本 硬件 部 署 在 何 处 。 此 外 ， 通 过 将 这 些 
功能 集中 在 单个 控制 平面 上 可 以 简化 管理 ， 进 而 减少 运 维 成 本 和 软件 维护 工作 量 。 


软件 定义 存储 模型 不 是 行业 标准 ， 我 们 可 以 采用 各 种 不 同 的 方法 来 设计 、 实 施 和 运行 解决 方案 堆栈 。VMware 和 独立 软件 供 
应 商 (1SV) 几 年 前 就 创立 了 相关 概念 ， 并 开发 了 软件 定义 存储 平台 的 产品 架构 ， 通 过 将 它 集成 到 市 场 上 领先 的 虚拟 化 层 中 ， 可 
确保 软件 定义 存储 能 够 运行 在 一 个 稳定 可 靠 且 经 济 适用 的 模型 中 。 所 涉及 的 举措 如 下 (这些 也 是 本 书 中 介绍 的 重点 内 容 ) : 


. 引入 超 融 合 架 构 产 品 Virtual SAN， 这 是 一 种 采用 直 连 存储 配置 且 与 硬件 无 关 的 准 系统 模型 。 它 可 以 减少 或 完全 消除 管理 交 
换 式 结构 或 LAN 连 接 的 存储 基础 架构 的 需求 ， 不 再 需要 专 有 存储 硬件 来 提供 支持 。 


* 将 高 级 存储 功能 从 存储 供应 商 的 硬件 中 抽象 出 来 ， 改 为 放置 在 虚拟 化 层 软件 和 管理 控制 平面 上 。 这 种 方法 简化 了 运 维 工 
作 ， 无 需 使 用 专 有 软件 许可 和 固件 级 工具 进行 管理 ， 存 储 服务 可 以 应 用 于 全 部 存储 容量 ,而 不 只 是 特定 的 硬件 。 


"通过 统一 的 用 户 界面 ， 引 入 了 单一 的 存储 服务 管理 平面 。 有 了 这 些 ， 我 们 不 再 需要 使 用 第 三 方 工具 和 特定 的 阵列 要 素 管理 
器 来 监控 和 管理 异 构 的 存储 基础 架构 。 


可 


这 些 特性 虽然 不 能 解决 导致 专 有 存储 系统 总 体 拥有 成 本 和 运 维 成 本 如 此 高 昂 的 所 有 问题 ， 但 它们 确实 实现 了 显著 改进 ， 解 决 
了 传统 存储 基础 架构 面临 的 一 些 挑战 。 


1.7.1 ” 超 融 合 基础 架构 和 Virtual SAN 


超 融合 基础 架构 (hyper-converged infrastructure，HCI) 的 硬件 架构 模型 可 以 通过 单一 的 x86 服 务 器 平台 使 用 虚拟 化 层 
来 实现 计算 、 网 络 和 共享 存储 功能 。 这 种 软件 驱动 型 架构 可 以 让 物理 存储 资源 成 为 商用 x86 服 务 器 的 一 部 分 ， 用 构建 块 的 方式 实 
现 Web-Scale 级 别 的 可 扩展 性 。 此 外 ， 通 过 采用 这 种 商用 x86 服 务 器 硬件 的 方法 ， 并 将 存储 硬件 和 计算 硬件 整合 到 单个 实体 
中 ，IT 组 织 和 云 服 务 提供 商 的 数据 中 心 可 以 在 一 个 高 度 可 扩展 、 经 济 高 效 、 全 融合 的 平台 上 实现 敏捷 的 运 维 管理 。 


Virtual SAN 是 VMware 的 超 融 合 基础 架构 平台 ， 可 通过 VMware 的 技术 集成 堆栈 来 实施 。 它 可 以 将 本 地 存储 汇聚 到 统一 的 
数据 平面 ， 以 供 虚 拟 机 使 用 。 此 外 ， 它 还 可 以 利用 全 集成 的 策略 驱动 型 管理 层 ， 通 过 集成 到 每 个 虚拟 机 自身 设置 中 的 策略 驱动 型 
存储 机 制 来 集中 管理 虚拟 机 。 这 些 策略 可 定义 必须 遵守 的 可 靠 性 、 元 余 性 和 性 能 特性 ， 驻 留 在 同一 个 存储 平台 的 各 个 虚拟 机 可 以 
有 各 自 独立 的 策略 。 


Virtual SAN 是 VMware 超 融合 基础 染 构 解决 方案 的 基础 组 件 。 该 模型 可 将 计算 、 存 储 和 网 络 功 能 融合 到 单个 集成 的 软件 层 
中 ， 然 后 可 以 在 符合 VMware 硬件 兼容 性 列表 (Hardware Compatibility List，HCL) 中 规定 的 任何 商用 x86 基 础 架构 上 运行 。 
除了 利用 vSphere 将 计算 资源 抽象 并 聚合 到 逻辑 池 之 外 ， 内 许 在 虚拟 化 层 VMkernel 中 的 Virtual SAN 还 可 以 将 服务 器 上 连接 的 磁 
盘 设 备 组 合成 池 ， 构 建 高 性 能 的 分 布 式 数据 存储 。 


采用 这 种 方式 ， 可 以 轻松 满足 大 多 数 要 求 严 苛 的 IT 组 织 或 云 服务 提供 商 的 存储 需求 ， 而 且 花 费 的 成 本 比 传统 的 庞大 SAN 或 
NAS 存 储 设备 低 。 采 用 Virtual SAN，vSphere 和 vSphere 存 储 管理 员 可 以 完全 忽略 RAID 集 和 LUN (逻辑 卷 ) 等 概念 ， 而 将 精力 
集中 在 应 用 的 具体 存储 需求 上 。 此 外 ，Virtual SAN 还 有 助 于 简化 容量 规划 ,支持 同 时 扩展 存储 和 计算 ,可 以 无 中 断 地 增加 新 节 
点 ， 而 且 无 需 购 买 昂贵 的 存储 框架 或 磁盘 架 。 有 关 Virtual SAN 的 更 多 详细 信息 ， 请 阅读 第 4 ~ 7 章 。 


1.7.2 Virtual Volumes 


Virtual Volumes 虽 然 不 是 HCI 架 构 策略 的 一 部 分 ， 但 它 仍然 是 VMware 软件 定义 存储 模型 中 的 重要 组 成 部 分 。Virtual 
Volumes 引 入 了 一 种 全 新 的 方式 来 使 用 共享 存储 设备 ， 并 通过 存储 阵列 的 完全 虚拟 机 感知 功能 彻底 改变 了 存储 管理 方式 。 基 于 
T10 工 业 标 准 设计 的 Virtual Volumes 在 vSphere 和 第 三 方 供应 商 的 存储 硬件 之 间 实 现 了 独特 的 集成 ， 显 著 提 高 了 虚拟 负载 的 效 
率 和 易 管理 性 。 


Virtual Volumes 可 对 共享 SAN 和 NAS 存 储 设备 进行 虚拟 化 ， 然 后 将 这 些 资源 提供 给 vSphere 主 机 ; 通过 这 种 方式 ， 可 以 获 
得 一 个 由 裸 磁盘 容量 构成 的 逻辑 池 ， 我 们 将 其 称 为 虚拟 数据 存储 。 代 表 虚 拟 磁盘 和 其 他 虚拟 机 实体 的 Virtual Volume 对 象 本 身 
驻 留 在 底层 存储 上 ， 从 而 使 该 对 象 或 虚拟 磁盘 取代 LUN ( 逮 辑 卷 ) 成 为 阵列 级 别 的 主要 数据 管理 单元 。 其 结果 是 ， 我 们 可 以 在 
底层 存储 系统 上 执行 虚拟 机 甚至 虚拟 磁盘 粒度 级 的 存储 操作 ， 进 而 可 提供 基于 阵列 的 本 机 数据 服务 ， 例 如 ， 为 单个 虚拟 机 创建 快 
照 或 进行 远程 复制 等 。 


为 了 简化 操作 并 实现 统一 管理 ， 这 些 功能 都 可 借助 一 个 通用 的 存储 策略 驱动 型 机 制 来 实现 ， 这 种 机 制 可 以 将 Virtual SAN 存 
储 资 源 和 Virtual Volumes 外 部 存储 纳入 单一 管理 平面 。 有 关 Virtual Volumes 的 详细 信息 ， 请 阅读 第 8 章 。 


1.7.3 “传统 存储 模型 与 下 一 代 存 储 模型 


本 书 谈 到 了 传统 存储 技术 和 下 一 代 存 储 技术 。 这 些 术语 可 能 有 多 重合 义 ， 为 了 避 锡 混淆， 本 节 对 它们 进行 一 些 概 要 介绍 。 


本 书 使 用 传统 存储 模型 来 描述 vSphere 使 用 的 传统 共享 存储 模型 。 此 类 存储 的 典型 代表 有 LUN、 基 于 VMFS 的 卷 和 数据 存储 
以 及 NFS 挂 载 点 ， 它 们 都 通过 共享 存储 协议 来 提供 |/O 连 接 。 这 种 模型 虽然 存在 一 些 限制 ， 但 已 被 业界 的 许多 IT 组 织 和 云 服 务 提 
供 商 成 功 使 用 数 年 ， 在 未 来 一 段 时 间 内 还 将 继续 使 用 。 


下 一 代 存 储 模型 是 指 VMware 提 供 的 软件 定义 解决 方案 ， 即 Virtual SAN 和 Virtual Volumes， 它 们 开创 了 存储 设计 、 实 施 
和 管理 的 新 纪元 。 


正如 本 章 前 面 所 述 ，VMware 的 软件 定义 存储 模型 的 主要 目标 是 提供 简单 、 经 济 、 高 效 的 存储 资源 。 该 模型 通过 抽象 化 底层 
存储 ， 使 应 用 成 为 异 构 人 存储 平台 中 的 基本 管理 单元 ， 最 终 实现 上 述 目 标 。VMware 通 过 Virtual SAN 和 Virtual Volumes， 使 用 
更 加 灵活 的 策略 驱动 型 方法 ， 摆 脱 了 传统 LUN 和 卷 的 固有 局 限 性 ， 并 以 一 种 全 新 方法 实现 了 基于 虚拟 机 的 存储 管理 。 


然而 ， 在 迁移 到 下 一 代 人 存储 技术 之 前 ， 你 需要 先 了 解 上 一 代 基 于 vSphere 的 虚拟 化 平台 使 用 的 存储 方法 ， 明 确 VMware 堆 栈 
本 身 如 何 与 存储 资源 交互 以 提供 灵活 的 现代 化 虚拟 数据 中 心 。 


本 章 介 绍 了 VMware 存储 概况 、 人 存储 设计 过 程 以 及 企业 IT 组 织 和 云 服务 提供 商 的 vsphere 人 存储 管理 团队 在 对 复杂 的 异 构 存储 
平台 进行 日 常 维护 时 所 面临 的 一 些 挑 战 。 下 一 章 将 针对 前 面 概述 的 传统 存储 模型 介绍 一 些 基 本 的 设计 考虑 因素 。 


第 2 章 ”传统 存储 模型 与 构建 


本 章 介绍 在 VMware 虚 拟 数据 中 心 内 部 署 传统 存储 技术 的 设计 考虑 因素 ， 以 及 影响 存储 层 平台 设计 的 主要 存储 概念 。 


2.1 ”传统 存储 概念 


存储 基础 架构 包含 大 量 的 复杂 组 件 和 技术 ， 所 有 这 些 组 件 和 技术 需要 无 颖 交互 才能 在 整个 环境 中 提供 高 性 能 、 连 续 可 用 性 和 


低 延 时 。 对 于 vsSphere 存 储 初 级 用 户 ， 基 于 多 供应 商 企业 或 服务 提供 商 的 混合 多 平台 人 存储 的 设计 和 实施 异常 复杂 ， 了 解 这 些 内 容 
通常 需要 花费 大 量 时 间 和 精力 ， 而 了 解 所 有 组 件 、 技 术 以 及 特定 于 供应 商 的 专 有 硬件 也 需要 一 定 的 时 间 。 


本 章 介绍 了 这 些 存储 组 件 和 技术 及 其 在 传统 存储 环境 中 的 交互 。 后 续 章节 着 重 阐述 下 一 代 VMware 存 储 解 决 方案 和 软件 定义 
的 存储 模型 。 


传统 存储 模型 采用 智能 但 高 度 专 有 的 存储 系统 将 磁盘 组 合 在 一 起 并 进行 分 区 ， 然 后 将 这 些 物理 硬盘 呈现 为 离散 的 逻辑 单元 。 
由 于 这 些 人 存储 系统 的 专 有 性 质 ， 我 在 这 里 不 会 讨论 任何 具体 的 配置 ， 例 如 ，HP、IBM 或 EMC 存 储 ， 而 是 要 说 明 vSphere 平 台 如 
何 使 用 这 些 传统 存储 设备 。 


在 传统 存储 模型 中 ， 将 逻辑 单元 或 存储 设备 以 物理 存储 设备 形式 提供 给 vSphere 主 机 集群 之 前 ,会 为 其 分 配 一 个 逻辑 单元 号 
(LUN) 。 


这 些 LUN 由 存储 系统 上 的 后 端 物 理 磁 盘 阵 列 提供 支持 ， 磁 盘 阵列 通常 采用 传统 RAID (独立 磁盘 匈 余 阵列 ) 技术 。 根 据 不 同 
的 硬件 类 型 ， 这 一 技术 可 以 在 物理 或 逻辑 磁盘 层 进行 应 用 ， 如 图 2-1 所 示 。 
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图 2-1 传统 存储 模型 


LUN 或 存储 设备 是 存储 阵列 中 部 分 物理 磁盘 空间 的 虚拟 表示 形式 。LUN 汇 总 了 构成 后 端 系统 的 物理 硬盘 中 的 部 分 磁盘 空 


间 。 但 是 ， 如 图 2-1 所 示 ， 数 据 并 未 写 入 单个 物理 设备 中 ， 而 是 分 散在 各 个 驱动 器 中 。 相 较 于 写 入 单个 物理 磁盘 ， 这 一 机 制 使 得 
存储 系统 能 够 提供 容错 功能 并 改善 性 能 。 


传统 存储 模型 存在 若干 限制 。 首 先 ， 单 一 LUN 的 所 有 虚拟 磁盘 (VMDK) 将 视 为 一 个 整体 ， 而 无 论 LUN 的 容量 如 何 。 例 
如 ， 你 不 能 在 存储 级 别 复制 单个 虚拟 磁盘 ; 要 么 复制 整个 .UN， 要 么 不 复制 任何 内 容 。 此 外 ， 即 使 vSphere 现 在 能 够 支持 高 达 
64TB 的 LUN，LUN 大 小 仍 存在 限制 ， 你 不 能 在 vSphere 主 机 或 集群 上 附加 超过 256 个 LUN。 


此 外 ， 使 用 传统 存储 方法 将 SCSI LUN 提 供给 vSphere 主 机 或 集群 时 ， 底 层 存 储 系统 无 法 识别 虚拟 化 层 、 文 件 系统 、 客 户 机 
操作 系统 或 应 用 。 虚 拟 化 层 和 vCenter 或 其 他 管理 工具 负责 将 对 象 和 文件 (如 vmdk) 映射 到 存储 系统 可 识别 的 相应 数据 块 、 页 


面 和 逻辑 块 地 址 (LBA) 。 在 基于 NAS 的 NFS 解 决 方案 中 ， 还 有 一 个 置 于 底层 块 存储 之 上 的 抽象 层 ， 负 责 文件 管理 和 相关 文件 到 
LBA 的 映射 活动 。 


传统 存储 染 构 面临 的 其 他 挑战 如 下 : 
. 专 有 技术 而 非 商用 硬件 


. 存储 资源 利用 率 低 


* 存储 资源 超额 置 备 


" 置 备 方式 严格 

: 虚拟 磁盘 级 别 缺 乏 细 粒度 的 控制 

“ 负载 要 求 不 断 变 化 ， 需 要 进行 频繁 的 数据 迁移 
" 操作 流程 耗 时 

: 缺乏 自动 化 和 通用 API 置 备 方式 

* 缓慢 的 存储 请 求 要 求 手动 执行 维护 和 置 备 操作 


大 部 分 存储 系统 具有 两 类 基本 的 LUN: 传统 模型 和 磁盘 池 。 传 统 的 模型 多 年 来 在 传统 存储 系统 中 已 经 成 为 一 种 标准 机 制 。 
磁盘 池 技术 在 最 近 几 年 兴起 ， 为 兼容 系统 在 置 备 虚 拟 存储 资源 时 提供 了 更 大 的 灵活 性 和 可 扩展 性 。 


在 传统 模型 中 ， 创 建 LUN 之 初 ， 所 选 磁盘 及 其 数量 与 配置 的 RAID 类 型 和 磁盘 设备 直接 对 应 。 传 统 模型 存在 局 限 性 ， 尤 其 在 
虚拟 环境 中 ， 因 而 被 更 为 现代 的 磁盘 池 概 念 所 取代 。 传 统 模型 往往 对 组 成 逻辑 磁盘 的 物理 硬盘 数量 有 一 个 上 限 要 求 。 这 一 最 大 硬 
盘 数 量 限制 是 存储 阵列 系统 的 硬性 限制 ， 同 时 也 与 可 用 性 和 性 能 的 实际 考虑 因素 相关 。 


使 用 传统 磁盘 分 组 方法 时 ， 通 过 创建 某 种 MetaLUN 通 常 可 以 扩展 逻辑 磁盘 ， 以 超出 其 硬性 物理 限制 。 但 是 ， 这 会 增加 操作 
难度 ， 而 且 非 常 耗 时 。 


采用 这 种 方法 时 还 存在 一 些 其 他 注意 事项 : 由 于 严格 的 阵列 限制 ， 所 置 备 的 存储 量 通 常 远 远 超出 所 需 的 存储 量 。 存 储 管理 员 
会 置 备 超 量 存储 以 防 日 后 扩大 存储 时 不 可 避免 地 发 生 应 用 中 断 ， 或 者 是 出 于 潜在 负载 需求 或 未 知 增长 模式 的 考虑 。 无 论 哪 种 原 
因 ， 通 常 都 会 导致 昂贵 的 磁盘 存储 在 大 部 分 时 间 里 利用 率 很 低 。 


男 一 方面 ， 这 种 根据 使 用 的 RAID 和 硬盘 类 型 来 置 备 LUN 的 传统 方法 提供 了 固定 县 可 预测 的 性 能 。 因 此 ， 当 存储 需求 没有 大 
量 的 预期 增长 ,或 者 应 用 |/O 需 求 比较 严格 而 服务 级 别 协议 (SLA) 固定 不 变 时 ， 这 种 磁盘 置 备 方法 仍 是 明智 的 选择 。 


最 近 几 年 ， 人 存储 供应 商 几乎 都 将 目光 投向 磁盘 池 。 池 可 以 使 用 更 大 的 磁盘 组 ， 并 从 中 创建 LUN。 然 而 ， 磁 盘 池 仍然 由 通过 
RAID 机 制 实现 数据 条 带 化 或 镜像 化 的 物理 磁盘 组 成 ，LUN 可 从 该 池 中 创建 ， 这 种 设备 类 型 可 以 跨 更 多 的 磁盘 创建 。 这 种 方法 的 
优势 是 ， 存 储 管理 员 能 够 在 不 牺牲 可 用 性 级 别 的 基础 上 置 备 更 大 的 LUN。 


但 是 ， 使 用 这 种 更 灵活 的 方法 会 导致 性 能 不 稳定 。 原 因 在 于 ， 可 共享 该 磁盘 池 人 存储 的 应 用 数量 较 多 且 会 随时 间 不 断 增加 ; 磁 
盘 池 的 异 构 特性 对 一 致 性 没有 要 求 ， 这 会 影响 各 个 物理 磁盘 的 速度 和 容量 ， 如 图 2-2 所 示 。 
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从 传统 存储 设计 角度 来 看 ， 需 要 在 置 备 单个 磁盘 池 或 多 个 磁盘 池 之 间 进 行 权衡 。 如 果 选 择 多 个 磁盘 池 ， 应 使 用 什么 样 的 设计 
标准 来 定义 这 些 池 呢 ? 


我 们 在 本 章 后 面 将 更 详细 地 介绍 分 层 和 自动 化 分 层 。 在 考虑 是 置 备 包 含 所 有 磁盘 资源 的 单个 池 ， 还 是 在 阵列 上 部 署 多 个 存储 
池 并 相应 拆 分 存储 资源 时 ， 这 是 个 关键 设计 因素 。 


选择 单个 池 ， 可 以 简化 环境 运 维和 容量 管理 。 此 外 ，LUN 或 文件 系统 还 能 够 跨越 大 量 的 物理 磁盘 实现 条 带 化 ， 从 而 提升 阵 
列 系统 的 整体 性 能 。 但 是 ， 大 量 主机 和 集群 也 可 能 会 共享 同一 底层 后 端 磁盘 系统 。 因 此 ， 增 加 了 资源 争夺 的 可 能 性 ， 也 增 大 了 特 
定 应 用 不 能 使 用 最 佳 RAID 配 置 和 最 大 化 MO 需求 的 风险 ， 这 可 能 导致 这 些 负载 在 性 能 上 有 所 降低 。 


而 使 用 多 个 磁盘 池 ， 可 以 灵活 地 自 定 义 存 储 资源 以 满足 特定 的 应 用 MO 要 求 ， 同 时 人 允许 运 维 团队 将 特定 的 负载 隔离 在 特定 的 
物理 驱动 器 内 ， 降 低 磁盘 争 用 的 风险 。 但 是 ， 在 此 类 架构 中 ， 池 的 大 小 较 小 ， 相 比 单个 大 池 ， 一 些 系统 可 能 会 出 现 性 能 较 低 的 情 
况 。 此 外 ， 使 用 多 个 较 小 的 池 ， 容 量规 划 更 加 复杂 ， 因 为 各 个 磁盘 池 的 增长 可 能 不 一 致 ， 有 可 能 导致 未 被 使 用 的 整体 磁盘 资源 增 
加 。 


这 两 种 方法 各 有 利弊 ， 没 有 绝对 完美 的 解决 方案 。 然 而 ， 要 在 解决 方案 中 使 用 多 个 较 小 的 池 ， 而 非 一 个 通用 磁盘 池 ， 应 考虑 
以 下 一 个 或 多 个 关键 设计 因素 : 


基于 功能 的 磁盘 池 ， 如 开发 、QA、 生 产 等 。 如 果 你 比较 关心 特定 环境 的 性 能 ， 并 希望 进行 隔离 以 免 影响 生产 系统 ， 则 首 
选 此 方法 。 
“ 在 多 租户 环境 中 ， 无 论 是 公共 的 还 是 基于 内 部 业务 部 门 的 ， 每 个 租户 都 可 以 被 分 配 以 自己 的 池 。 但 是 ， 根 据 不 同 的 环境 和 


SLA， 每 个 租户 最 终 需 要 多 个 池 才 能 满足 各 种 应 用 的 特定 1/ 〇 特性 


" 基于 应 用 的 池 ， 如 数据 库 或 电子 邮件 系统 。 这 可 以 提供 最 佳 性 能 ， 因 为 相似 类 型 的 应 用 通常 具有 类 似 的 I/O 特 性 。 正 因为 
如 此 ， 可 以 考虑 根据 应 用 类 型 来 设计 池 。 然 而 ， 这 也 伴随 着 某 些 数据 库 风 险 ， 例 如 ， 产 生 非 常 高 的 I/O ， 并 可 能 影响 驻 留 在 同一 
磁盘 池上 的 其 他 数据 库 。 


驱动 器 技术 和 RAID 类 型 。 这 多 许 你 将 数据 存储 在 与 应 用 I/O 特 性 〈 例 如 读 取 、 写 入 、 顺 序 ) 最 匹配 的 存储 类 型 上 。 但 
是 ， 这 种 方法 会 增加 成 本 ， 却 无 法 解决 任何 特定 的 应 用 I/O 强 度 要 求 。 


“ 基于 存储 层 的 池 ， 如 金 、 银 、 铜 。 可 以 在 每 个 池 中 混合 使 用 驱动 器 技术 和 /或 RAID 类 型 ， 从 而 减少 支持 大 多 数 应 用 类 型 、 
配置 和 SLA 所 需 的 池 数量 。 


2.1.1 RAID 集 


术语 “RAID” 被 广泛 用 于 不 同 环境 ， 接 下 来 我 们 将 详细 介绍 RAID 技 术 。 


RAID (独立 磁盘 元 余 阵 列 ) 将 两 个 或 更 多 磁盘 驱动 器 组 合成 一 个 逻辑 分 组 ， 通 常 称 为 RAID 集 。 在 RAID 控 制 器 (或 存储 系 
统 的 存储 处 理 器 或 控制 器 ) 的 控制 下 ， 即 使 由 多 个 物理 磁盘 组 成 ，RAID 在 已 连接 的 主机 中 也 只 显示 为 一 个 逻辑 磁盘 驱动 器 。 
RAID 集 为 存储 系统 提供 以 下 4 个 主要 优势 : 


“ 更 高 的 数据 可 用 性 
更 大 的 容量 
更 高 的 [/O 〇 性 能 
* 简化 的 存储 设备 管理 
通常 ， 存 储 阵列 管理 软件 可 处 理 如 下 几 个 RAID 技 术 操 作 : 
.硬盘 聚合 管理 与 控制 
` 逻辑 和 物理 实体 之 间 的 1/O 请 求 转换 
发 生 磁盘 故障 时 进行 错误 纠正 


组 成 RAID 集 的 物理 磁盘 可 以 是 传统 的 机 械 盘 或 固态 闪存 驱 动 器 (SSD) 。RAID 集 具有 不 同 的 级 别 ， 每 个 级 别 都 针对 特定 用 
例 进行 了 优化 。 与 许多 其 他 通用 技术 不 同 ，RAID 级 别 并 非 由 行业 组 织 或 标准 化 委员 会 制定 的 标准 。 因 此 ,一些 存储 供应 商 提 供 
了 自己 的 RAID 技 术 实 施 。 本 章 将 介绍 以 下 常见 的 RAID 级 别 : 


RAID 0 - 条 带 化 
- RAID 1 - 镜像 


* RAID 5 - 具有 奇偶 校 验 的 条 带 化 





. RAID 6 - 具有 双 奇 偶 校 验 的 条 带 化 
. RAID 10 - 镜像 与 条 带 化 结合 


使 用 哪 种 类 型 的 RAID 构 建 存 储 解 决 方案 在 很 大 程度 上 取决 于 3 个 因素 : 容量 、 可 用 性 和 性 能 。 本 节 将 介绍 这 些 基 本 概念 ， 为 
你 了 解 磁 盘 阵 列 莫 定 基 础 ， 并 介绍 如 何 通 过 组 合 使 用 物理 磁盘 来 增加 RAID 容 量 、 在 出 现 故 障 时 提供 更 高 的 可 用 性 以 及 通过 并 行 
驱动 器 访问 来 提高 性 能 。 


RAID 的 一 个 关键 因素 是 元 余 ， 其 目的 是 提高 容错 性 。 可 以 通过 两 种 机 制 来 实现 : 镜像 化 和 条 带 化 ， 具 体 取决 于 配置 的 RAID 
级 别 。 在 介绍 存储 阵列 系统 中 常用 的 RAID 集 功能 之 前 ,我 们 将 首先 介绍 两 个 术语 及 其 对 可 用 性 、 容 量 、 性 能 和 易 管理 性 的 意 
义 。 


@O 注 意 一 些 存 储 系 统 还 提供 了 JBOD 配 置 ，JBOD 可 理解 为 “一 堆 磁盘 ” (justabunch of disks) 。 在 此 配置 中 ， 磁 盘 不 使 
用 任何 特定 的 RAID 级 别 ， 而 是 作为 独立 的 驱动 器 。 此 类 磁盘 配置 通常 用 于 包含 交换 文件 或 假 脱 机 数据 的 存储 设备 。 此 时 ， 兄 余 
并 非 最 重要 的 因素 。 


1.RAID 集 的 条 带 化 


如 上 所 述 ，RAID 集 由 多 个 物理 磁盘 组 成 。 每 个 磁盘 内 都 有 一 组 地 址 连续 的 块 ， 称 为 条 带 。 在 RAID 集 内 跨 所 有 磁盘 对 齐 的 条 
带 集 称 为 条 带 化 ， 如 图 2-3 所 示 。 





图 2-3 条 带 和 条 带 化 


条 带 化 功能 可 以 在 RAID 集 内 的 磁盘 间 分 发 数据 ， 从 而 提高 了 性 能 ， 如 图 2-4 所 示 。 使 用 多 个 独立 磁盘 可 同时 进行 多 个 读 写 操 
作 ， 体 现 了 磁盘 条 带 化 的 主要 优势 之 一 : 提高 性 能 。 例 如 ， 跨 3 个 硬盘 条 带 化 数据 所 提供 的 带宽 是 单个 驱动 器 的 3 倍 。 因 此 ， 如 
果 每 个 驱动 器 以 175 次 IOPS (每 秒 输 入 /输出 操作 数 ) 运行 ， 那 么 RAID 集 的 磁盘 条 带 化 可 提供 高 达 525 次 1OPSs 的 数据 读 写 速 度 。 






RAID 控 制 需 
存储 控制 器 





图 2-4 条 带 化 中 的 性 能 


条 带 化 还 可 通过 如 下 操作 提供 性 能 和 可 用 性 优势 : 


“ 管理 写 入 的 大 量 数据 。 第 1 数据 片段 发 送 到 第 1 个 驱动 器 ， 第 2 数据 片段 发 送 到 第 2 个 驱动 器 ， 


这 些 数据 片段 重新 组 合 在 一 起 。 
: 增加 RAID 集 内 物理 磁盘 的 数量 可 提高 性 能 ， 因 为 可 以 同时 读 取 和 写 入 更 多 的 数据 。 
: 使 用 较 高 的 条 带宽 度 表示 驱动 器 数量 更 多 ,性 能 更 佳 。 


“ 通过 存储 控制 器 管理 条 带 ， 因 此 对 于 vSphete 平 台 而 言 是 透明 的 。 


mean 


依 此 类 推 。 读 取 数 据 后 ， 再 将 


作为 条 带 化 机 制 的 一 部 分 ， 奇 偶 校 验 可 用 于 宛 余 检 查 ， 以 确保 无 需 一 整套 重复 驱动 器 即 可 保护 数据 ， 如 图 2-5 所 示 。 奇 偶 校 


验 对 于 条 带 化 非常 重要 ， 可 为 条 带 化 RAID 集 提供 以 下 功能 : 





图 2-5 ”通过 校 验 实现 宛 


沙 


“ 如 果 阵 列 中 的 单个 磁盘 失效 ， 其 他 磁盘 具有 足够 的 完 余 数据 ， 以 便 从 失败 的 磁盘 中 恢复 数据 。 

. 与 条 带 化 一 样 ， 奇 偶 校 验 通常 是 RAID 控 制 器 或 存储 控制 器 的 一 个 功能 ， 因 此 它 对 于 vSphere 平 台 是 完全 透明 的 。 
“ 奇偶 校 验 信息 能 够 : 

:存储 在 单独 的 专用 驱动 器 上 


:分布 在 RAID 集 内 的 所 有 驱动 器 上 
2.RAID 集 的 镜像 化 


镜像 可 通过 一 种 机 制 使 多 个 物理 磁盘 能 够 保存 相同 的 数据 副本 ， 通 常 在 两 个 驱动 器 上 。 每 次 将 数据 写 入 磁盘 时 也 会 写 入 镜像 
磁盘 里 ， 这 意味 着 两 个 物理 磁盘 始终 包含 完全 相同 的 信息 。 这 种 机 制 同 样 对 vSphere 平 台 是 完全 透明 的 ， 并 由 RAID 控 制 器 或 存 
储 控 制 器 进行 管理 。 如 果 磁 盘 出 现 故障 ，RAID 控 制 器 将 使 用 镜像 驱动 器 进行 数据 恢复 ， 同 时 继续 执行 MO 操作 ， 在 后 台 从 镜像 驱 
动 器 重建 被 替换 驱动 器 上 的 数据 。 


镜像 的 主要 优势 是 能 够 从 磁盘 故障 快速 恢复 并 提高 读 取 性 能 ， 如 图 2-6 所 示 。 但 是 ， 镜 像 也 存在 以 下 缺点 : 
: 写 入 性 能 降低 ， 因 为 每 个 数据 块 要 同时 写 入 多 个 磁盘 上 。 


- 数据 保护 成 本 较 高 ， 因 为 磁盘 镜像 要 求 每 GB 数据 的 成 本 增加 100%。 


企业 存储 系统 通常 支持 多 个 RAID 级 别 ， 并 且 可 在 单个 仓储 阵列 中 混用 这 些 RAID 级 别 。 但 是 ，RAID 类 型 一 旦 分 配给 一 组 物 


理 磁 盘 后 ， 通 过 该 RAID 集 构建 的 所 有 LUN 都 会 分 配 有 此 RAID 类 型 。 


3. 柑 套 RAID 
基 些 RAID 级 别称 为 秦 套 RAID， 因 为 它们 基于 一 些 RAID 级 别 的 组 合 。 抱 套 RAID 示 例 包括 : RAID 03 (RAID 0+3， 也 称 为 
RAID 53 或 RAID5+3) 以 及 RAID 50 (RAID 5+0) 。 但 是 ， 常 见 的 两 个 嵌 套 RAID 级 别 实施 方式 和 分 别 为 : RAID 1+0 (RAID 


10) 和 RAID 01 (RAID0+1) 。 除 了 数据 组 织 方式 略 有 不 同 之 外 ， 这 两 个 级 别 非常 相似 ; RAID 1+0 是 先 创建 镜像 然后 再 条 带 
化 ， 而 RAID 0+1 是 先 创建 条 带 集 然后 再 镜像 。 





RAID 控 制 器 / 
人 存储 控制 洽 








图 2-6 ”磁盘 镜像 中 的 宛 余 


4. 计 算 IOPS 的 RAID 惩 罚 
衡量 磁盘 性 能 的 主要 方法 之 一 是 每 秒 的 输入 /输出 数 ， 也 称 为 每 秒 |/O 或 |OPS。 这 个 公式 很 简单 : 一 个 读 取 请 求 或 一 个 写 入 
请 求 就 等 于 一 个 MO。 


存储 中 的 每 个 物理 磁盘 可 以 提供 固定 量 的 MO。 磁盘 制造 商会 根据 转速 、 平 均 延 迟 和 寻 道 时 间 进 行 计算 。 表 2-1 显 示 了 最 常 
见 驱动 器 类 型 的 典型 物理 驱动 器 IOPs 规 范 示 例 。 


表 2-1 典型 平均 每 秒 I/O 〇 (每 物理 磁盘 ) 


驱动 器 转速 典型 平均 IOPS/ 驱动 器 
固态 磁盘 (SSD ) 6000 
15 000 RPM 175 
10 000 RPM 125 
7200 RPM 75 
5400 RPM 50 


一 个 存储 设备 的 |OPS 能 力 是 通过 将 组 成 该 设备 的 磁盘 汇总 计算 而 成 的 。 例 如 ， 在 JBOD 配 置 中 ，3 个 转速 为 10000RPM 的 磁 
盘 为 JBOD 提 供 总 计 375 次 IOPS。 但 是 ， 除 了 RAID 0 ( 仅 为 一 组 为 创建 大 型 存储 设备 而 组 合 在 一 起 的 磁盘 ) 之 外 ， 所 有 RAID 集 
配置 都 会 通过 写 入 操作 多 次 写 入 RAID 集 ， 以 提供 用 户 期 望 的 可 用 性 和 性 能 。 


例如 ， 在 RAID 5 磁盘 集中 ， 对 于 每 个 随机 写 入 请 求 ， 存 储 控制 器 都 需要 执行 多 个 磁盘 操作 ， 这 对 原始 IOPS 的 计算 影响 相当 
大 。 通 常 ，RAID 5 磁盘 集 的 每 个 写 入 操作 需要 执行 4 次 IJOPS。 此 外 ， 通 过 双 容 错 提 供 更 高 级 别 保护 的 RAID 6 也 会 因 每 个 写 入 操 
作 需 要 执行 6 次 操作 的 MO 惩罚 而 导致 性 能 显著 降低 。 因 此 ， 作 为 此 类 解决 方案 的 架构 师 ， 你 还 必须 考虑 与 在 设计 中 使 用 的 RAID 
类 型 相关 的 任何 MO 惩罚 。 


表 2-2 概 述 了 最 常见 RAID 级 别 的 读 写 RAID 惩 罚 。 请 注意 ， 你 无 需 计 算 读 取 操作 的 奇偶 校 验 ， 此 类 MO 不 会 产生 任何 惩罚 。 只 
有 写 入 操作 会 产生 MO 惩罚 ， 计 算 读 取 操 作 时 ， 不 会 影响 性 能 或 者 IOPS。 只 有 执行 写 入 磁盘 的 操作 时 ，RAID 计 算 和 公式 中 才 会 
包含 RAID 惩 罚 。 即 使 在 基于 奇偶 校 验 的 RAID 类 型 的 写 入 操作 中 ， 读 取 作 为 写 入 的 一 部 分 来 执行 也 是 如 此 。 例 如 ， 将 数据 写 入 
RAID 5 磁盘 集中 ， 当 写 入 的 数据 大 小 小 于 单个 块 时 ， 需 要 执行 以 下 操作 : 


1) 读 取 旧 的 数据 块 。 


2) 读 取 旧 的 奇偶 校 验 块 。 


— 


3) 将 旧 块 中 的 数据 与 新 写 入 的 数据 进行 比较 。 更 改 每 个 位 时 ， 同 时 更 改 奇 偶 校 验 中 对 应 的 位 。 


— 


4) 写 入 新 的 数据 块 。 


— 


5) 写 入 新 的 奇偶 校 验 块 。 


— 


如 上 所 述 ，RAID 0 条 带 不 会 产生 写 惩 罚 ， 因 为 没有 要 计算 的 奇偶 校 验 。 在 表 2-2 中 ， 无 RAID 惩 罚 用 1 来 表示 。 


表 2-2 RAIDI/O 惩 罚 的 影响 


RAID 级 别 | 读 取 | 写 惩罚 | 15K 磁盘 的 写 入 IOPS 示 例 
RATD 0 一 条 带 化 0 
RAID 3 一带 奇偶 校 验 码 的 开行 传 欠 5 
RAID 5 一 带 奇 偶 校 验 码 的 条 市 化 40 
RAID 6 一 带 双 奇偶 校 验 人 码 的 条 带 化 30 
RAID 10 一 镜像 和 条 带 化 组 合 85 


基于 奇偶 校 验 的 RAID 集 在 存储 控制 器 上 会 产生 额外 的 处 理 开 销 ， 因 为 需要 执行 额外 的 计算 以 确定 奇偶 校 验 数据 。 你 为 RAID 
集 提供 的 奇偶 校 验 保护 级 别 越 高 ， 控 制 器 产生 的 处 理 开销 就 越 高 ， 实 际 产生 的 开销 在 很 大 程度 上 取决 于 负载 的 读 / 写 平衡 。 


在 计算 因 RAID 惩 罚 而 产生 的 IOPS 数 时 ， 下 列 公式 不 失 为 一 种 好 方法 ， 该 公式 假设 你 已 从 当前 状态 分 析 获 得 客户 读 写 负载 均 
衡 。 但 是 ， 你 还 必须 考虑 峰值 和 平均 负载 ， 以 确保 存储 设备 可 以 提供 所 需 的 IOPS。 


(总 负载 IOPS) X ( 读 取 操作 负载 %) 十 (总 负载 IOPSX 读 取 操 作 负 载 %XRAID IO 惩罚 ) 
在 本 例 计算 中 ， 客 户 提 供 了 以 下 负载 |/O 值 : 

" 所 需 IOPS 总 数 : 250 次 IOPS 

- 读 取 负载 : 50% 

- 写 入 负载 : 50% 

. 所 需 RAID 级 别 : 6 (I/O 惩 罚 为 6) 


为 了 满足 客户 在 50% 负 载 ， 为 写 入 操作 的 情况 下 RAID 6 磁盘 组 250 次 IOPS 的 要 求 ， 你 需要 一 个 可 以 支持 875 次 IOPS 的 RAID 
6 磁盘 集 。 


如 上 例 所 示 ， 磁 盘 数 量 远 比 磁盘 容量 重要 得 多 。 根 据 客 户 提供 的 信息 ， 你 需要 12 个 7200RPM 的 磁盘 ，7 个 10000RPM 的 磁 
盘 或 5 个 15000RPM 的 磁盘 来 支持 所 需 的 IOPS。 


确定 特定 负载 的 RAID 类 型 非常 重要 ， 这 会 影响 后 续 的 各 种 设计 因素 ， 并 在 成 本 、 可 用 性 和 性 能 之 间 进 行 取舍 。 


5.RAID 级 别 简 介 


为 特定 LUN 选 择 的 RAID 类 型 可 决定 该 LUN 为 所 运行 的 应 用 提供 的 元 余 和 数据 完整 性 级 别 。 然 而 ， 并 非 所 有 存储 阵列 供应 商 
均 支 持 所 有 RAID 类 型 ， 有 些 供应 商 甚至 开发 了 自己 的 RAID 类 型 。 为 了 确保 你 的 存储 设计 满足 客户 需求 ， 你 应 该 创建 硬件 供应 商 
存储 设备 能 够 使 用 的 RAID 类 型 。 表 2-3 ~ 表 2-8 深 入 介绍 了 存储 阵列 中 最 常用 的 RAID 类 型 ， 图 2-7 ~ 图 2-12 为 相关 图 示 。 
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图 2-7 无 容错 功能 的 RAID 0 条 带 化 磁盘 阵列 





表 2-3 RAID 0 一 一 无 容错 功能 的 条 带 化 磁盘 阵列 
设计 因素 描 述 
数据 保护 无 。RAID 0 在 阵列 中 跨 驱 动 器 条 带 化 信息 ， 不 会 产生 宛 余数 据 。 由 于 不 提供 奇偶 校 验 或 
A 镜像 ， 因 此 没有 容错 能 力 ， 使 得 它 非常 难以 恢复 数据 
优点 无 论 是 读 取 还 是 写 人 操作 ，RAID 0 都 能 提供 出 色 的 性 能 。 奇 偶 校 验 控制 不 会 产生 开销 ， 


因此 可 以 使 用 所 有 存储 容量 。 此 技术 非常 容易 实施 


设计 因素 


最 小 磁盘 数 
每 GB 成 本 
RAID 写 征 罚 


运 维 注意 事项 


典型 的 应 用 场景 


关键 设计 特点 


设计 因素 


数据 保护 


性 能 特点 


最 小 磁盘 数 
每 GB 成 本 
RAID 写 惩 罚 


运 维 注意 事项 


典型 的 应 用 场景 


关键 设计 特点 


\ 
从 小 


描 述 

如 果 某 个 驱动 器 失败 ，RAID 0 磁盘 集中 的 所 有 数据 都 将 丢失 。 关 键 业务 系统 中 不 应 部 
署 此 了 AID 类 型 

RAID 0 采用 条 带 化 ， 优 于 JBOD 配置 。 所 有 数据 以 块 形式 分 布 在 RAID 集 内 的 所 有 磁 
盘 上 。LO 较 小 时 ，LIO 速度 或 吞吐 量 良 好 ; 但 是 ， 如 果 LO 较 大 ， 则 使 用 此 RAID 类 型 会 
产生 高 带宽 (每 秒 移动 的 数据 量 )。 当 每 个 控制 器 只 有 一 个 驱动 器 时 ， 跨 多 个 控制 器 条 带 化 
数据 可 以 提高 性 能 

至 少 两 个 磁盘 


低 


1 
RAID 0 提供 零 容 错 ， 因 此 从 磁盘 恢复 数据 非常 困难 。 通 党 通过 备份 进行 全 部 数据 恢复 


适合 的 应 用 包括 需要 高 带宽 或 高 吞吐 量 而 数据 并 不 重要 的 应 用 ， 例 如 图 像 修正 或 视频 纺 
辑 应 用 。 对 于 需要 高 速 读 写 数据 以 满足 应 用 需求 的 高 带宽 、 非 关键 数据 存储 的 应 用 场景 ， 
RAID 0 是 理想 之 选 


不 是 真正 的 RAID 类 型 ， 因 为 它 不 提供 容错 功能 。 一 个 驱动 器 出 现 故 障 就 会 导致 RAID 
集 内 的 所 有 数据 丢失 。 因 此 ， 任 务 关键 系统 中 不 应 使 用 此 RAID 类 型 


表 2-4 RAID 1 一 一 磁盘 镜像 和 双 工 


描 述 


RAID 1 采用 镜像 提供 容错 功能 。RAID 1 组 通常 包含 两 个 或 更 多 磁盘 ， 不 过 两 个 以 上 磁 
盘 很 少见 ， 在 此 类 配置 下 ， 通 常 采用 RAID 10。 每 次 写 人 数据 磁盘 的 同时 也 会 写 和 人 镜像 磁 
盘 。 如 果 磁 盘 发 生 故障 ， 磁 盘 阵 列 控制 器 可 以 使 用 任 一 驱动 器 进行 数据 恢复 ， 同 时 继续 执 
行 常规 IO 操作 。 被 替换 的 驱动 器 上 的 所 有 数据 都 将 通过 镜像 磁盘 重建 


RAID 1 可 提供 出 色 的 读 取 速度 ， 其 写 人 速度 不 亚 于 单个 驱动 器 。 磁 盘 出 现 故 障 时 ， 不 
需要 重建 数据 ， 只 需 将 数据 复制 到 替换 驱动 器 上 。RAID 1 技术 非常 易于 实施 


阵列 中 的 磁盘 总 数 是 可 用 磁盘 的 2 倍 。 这 意味 着 开销 成 本 高 达 100%， 可 用 存储 容量 仅 
占 RAID 集 内 所 有 磁盘 可 用 总 量 的 50% 


RAID 1 提高 了 读 取 性 能 ， 因 为 读 取 操作 可 以 分 布 在 多 个 磁盘 上 ; 但 同时 也 会 降低 写 人 人 
性 能 ， 写 人 性 能 与 单 磁盘 存储 相同 

至 少 两 个 磁盘 

早 贵 ， 因 为 需要 额外 的 容量 来 1:1 地 镜像 数据 

2 

运 维 比较 简单 

RAID 1 是 任务 关键 存储 的 理想 选择 ， 例 如 账单 、 工 资 、 金 融 以 及 需要 高 可 用 性 和 快速 
读 取 LO 的 应 用 。 此 外 ， 它 还 适用 于 只 使 用 两 个 驱动 器 的 小 型 RAID 集 

RAID 1 可 提供 最 佳 综 合 性 能 ， 还 可 以 提供 良好 的 保护 ， 可 应 对 不 同 镜像 集 内 的 两 个 
驱动 器 故障 。 其 经 济 性 是 所 有 RAID 类 型 中 最 低 的 ， 因 为 可 用 存储 量 仅 占 裸 磁盘 总 量 的 
50% 





图 2-8 ”RAID 1 磁盘 镜像 和 双 工 


表 2-5 RAID 1+0 一 一 镜像 和 条 带 化 


设计 因素 


数据 保护 


优点 


缺点 

性 能 特点 
最 小 磁盘 数 
每 GB 成 本 


RAID 写 惩 罚 


运 维 注意 事项 


典型 的 应 用 场景 


关键 设计 特点 


描 述 


RAID 1+0 (也 称 RAID 10、RAID 1/0 或 RAID A) 同时 具有 RAID 0 的 速度 与 
RAID 1 的 兄 余 ， 但 会 以 不 同方 式 实施 。 这 是 其 套 RAID 配置 ， 通 过 镜像 二 级 驱动 
器 上 的 所 有 数据 来 提供 可 用 性 ， 同 时 在 每 个 驱动 器 集 上 采用 条 带 化 来 加 快 数据 传 输 
速度 


在 较 小 的 块 中 ，RAID 1+0 可 提供 高 可 靠 性 、 数 据 高 可 用 性 和 较 高 的 VO 速度 ， 并 
且 能 够 承受 不 同 镜像 中 的 多 个 驱动 器 故障 。 如 果 RAID 1+0 配置 中 的 某 个 磁盘 出 现 
故障 ， 重 建 速度 会 很 快 ， 因 为 只 需 将 所 有 数据 从 有 效 镜像 复制 到 新 的 驱动 器 上 。 对 
于 1TB 驱动 器 ，30 分 钟 内 即 可 完成 重建 


磁盘 总 数 高 达 可 用 数据 磁盘 的 2 倍 ， 额 外 开销 高 达 100% 
使 用 多 个 条 带 化 分 段 实 现 较 高 的 IO 速度 ， 写 人 操作 比 读 取 操作 慢 ， 因 为 需要 进 
行 镜像 
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昂 贯 ， 因 为 镜像 开销 较 高 ， 有 一 半 的 存储 容量 用 于 镜像 。 因 此 ， 相 较 于 大 型 RAID 
5 或 RAID 6 阵列 ， 这 种 提供 宛 余 的 方法 相当 昂贵 


2 
维 比较 简单 


运 
要 求 随机 数据 IO 速度 较 高 的 数据 库 ， 以 及 需要 最 大 程度 地 提高 数据 可 用 性 的 应 
用 


非常 可 靠 ， 性 能 较 高 






RAID 控 制 器 / 
存储 控制 器 





图 2-9 ”RAID 1+0 镜 像 和 条 带 化 
表 2-6 RAID 3 一 一 带 专用 奇偶 校 验 磁盘 的 并 行 传输 


设计 因素 


数据 保护 


性 能 特点 


最 人 小写 效 舟 : 数 
每 GB 成 本 
RAID 写 惩罚 


典型 的 应 用 场景 


关键 设计 特点 


描 述 


RAID 3 可 条 带 化 数据 以 实现 高 性 能 ， 并 使 用 奇偶 校 验 来 提供 容错 功能 。 在 RAID 3 中 ， 
会 对 RAID 集 内 所 有 磁盘 上 的 数据 进行 条 带 化 ， 只 有 一 个 驱动 器 例外 ， 该 驱动 融 专 门 用 来 
存储 奇偶 校 验 信息 ， 以 便 发 生 驱 动 器 故障 时 可 以 重新 构建 数据 。 RD 扑克 和 折 有 氏 
盘 上 读 取 和 写 和 人 完整 的 数据 条 带 ， 因 此 不 存在 部 分 写 人 ， 不 会 只 更 新 众多 条 带 中 的 某 一 个 
条 人 带 

Re 例如 ， 对 于 5 个 磁盘 的 磁盘 组 ， 磁 盘 总 数 是 数据 驱动 器 的 
1.25 倍 。 此 外 ，RAID 3 还 能 够 为 大 量 数 据 传 输 提 供 良 好 的 带宽 

RAID 3 在 处 理 小 型 数据 块 时 效率 较 低 ， 不 适合 事务 处 理应 用 ， 
同一 RAID 集 内 出 现 多 个 驱动 器 在 故障 ， 则 数据 会 丢失 

RAID 3 可 提供 较 高 的 数据 读 / 写 传 输 速 度 ， 一 个 磁盘 故障 对 吞吐 量 
是 ， 磁 盘 重 建 会 非常 缓慢 

RAID 3 至 少 需要 3 个 物理 磁盘 ， 某 些 存储 供应 商 实施 此 AID 类 型 时 需要 5 个 或 9 个 
磁盘 


中 等 


如 数据 库 。 此 外 ， 如 果 


没有 显著 影响 。 但 


3 
运 维 复杂 度 一 般 


由 于 LO 操作 同时 写 人 所 有 驱动 器 ，RAID 3 不 能 覆盖 IO。 因 此 ，RAID 3 适用 于 单 用 
户 系 统 ， 这 些 系 统 包含 具有 较 长 记录 的 应 用 以 及 需要 进行 大 量 顺序 数据 访问 的 应 用 


( 续 ) 
描 述 
在 只 需 一 个 较 长 顺序 数据 传输 的 应 用 下 ， 这 种 RAID 级 别 运行 良好 。 
的 应 用 适合 使 用 这 种 RAID 类 型 


RAID 3 可 提供 非常 高 的 读 取 数据 传输 率 ， 以 及 非常 高 的 写 入 数据 传输 率 。 奇 偶 校 验 磁 
盘 与 数据 磁盘 的 比率 较 低 ， 这 意味 着 这 种 设计 非常 高 效 。 在 RAID 3 中 ， 单 个 磁盘 故障 对 
存储 设备 的 吞吐 量 影响 不 大 


如 视频 服务 器 之 类 


设计 因素 


数据 保护 


优点 


缺点 
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图 2-10 RAID 3 带 专 用 奇偶 校 验 磁盘 的 并 行 传输 





带 分 布 式 奇偶 校 验 块 的 独立 数据 磁盘 


描 述 
与 RA 3 不同 ，RAID 5 不 会 同时 在 所 有 磁盘 上 读 取 或 写 人 数据 ， 而 是 执行 独立 的 读 写 
操作 。 没 有 专用 的 奇偶 校 验 驱 动 咒 ， 因 为 奇偶 校 验 信息 数据 分 布 在 集 内 的 所 有 驱动 器 上 。 
在 RAID 5 中 单个 磁盘 故障 会 导致 RAID 集 处 于 降级 模式 。 与 RAID 1 相 比 ，RAID 5 重 
建 速 度 较 慢 ， 因 为 它 采 用 块 级 别 或 多 块 级 别 条 带 化 


读 取 数据 速度 非常 快 ， 而 写 人 数据 速度 则 较 慢 ， 因 为 需要 计算 奇偶 校 验 。 如 果 了 AID 5 
集 内 出 现 单个 驱动 器 故障 ， 存 储 控 制 器 会 使 用 RAID 集 内 所 有 磁盘 上 收集 的 奇偶 校 验 信息 
在 新 的 驱动 器 上 重建 数据 


RAID 5 传输 速度 比 RAID 3 慢 。 小 型 写 入 较 慢 ， 因 为 需要 执行 读 取 一 修改 一 写 人 
(RMW) 操作 。 当 RAID 集 处 于 恢复 或 重建 模式 时 ， 还 会 出 现 长 时 间 的 性 能 降级 。 例 如 ， 
如 果 RAID 5 集 内 某 个 使 用 4TB 驱动 器 的 磁盘 出 现 故 障 并 被 替换 ， 重 建 时 间 可 能 需要 一 整 


天 或 更 长 时 间 ， 具 体 时 长 取决 于 阵列 上 的 负载 以 及 控制 器 的 速度 。RAID 5 磁盘 集 只 容许 


一 个 驱动 器 故障 ， 如 果 在 重建 操作 期 间 同 一 RAID 集 内 的 另 一 个 驱动 器 出 现 故 障 ， 则 很 可 


能 会 出 现 数据 丢失 


最 小 磁盘 数 


每 GB 成 本 


RAID 写 年 罚 


运 维 注意 事项 


典型 的 应 用 场景 


关键 设计 特点 


描 述 
RAID 5 可 提供 较 高 的 读 取 数据 速度 以 及 中 等 写 人 数据 速度 。 此 外 ，RAID 5 还 可 提供 较 
低 的 奇偶 校 验 磁盘 与 数据 磁盘 比率 ,通常 能 够 为 混合 虚拟 负载 提供 良好 的 整体 性 能 
RAID 5 至 少 需 要 3 个 驱动 器 ， 在 现代 存储 阵列 池 中 还 可 以 使 用 更 多 磁盘 。 以 往 ，5 个 
磁盘 和 9 个 磁盘 的 集 最 常见 ， 但 存储 阵列 一 般 具 有 更 多 选择 
使 用 奇偶 校 验 而 非 镜像 可 显著 节省 成 本 。RAID 5 的 每 GB 成 本 经 济 性 极 佳 ， 可 用 容量 
达到 磁盘 原始 存储 容量 的 80% 


4 
RAID 5 的 运 维 复杂 度 一 般 ， 由 于 比较 常用 ，IT 专业 人 士 能 够 熟练 掌握 相关 技术 


RAID 5 是 一 个 良好 的 综合 解决 方案 ， 集 高 效 存储 与 高 级 别 可 用 性 和 出 色 的 性 能 于 
一 身 。 对 于 数据 驱动 器 数量 有 限 的 文件 和 应 用 服务 器 ，RAID 5 是 一 种 理想 选择 。RAID 
5 同样 适用 于 并 行 处 理 和 多 任务 应 用 环境 、 某 些 数 据 库 服务 器 以 及 WWW 和 电子 邮件 
服务 


RAID 5 可 提供 全 面 的 性 能 、 保 护 和 经 济 性 优势 ， 但 是 对 于 写 入 密集 型 系统 则 不 建议 使 
用 ， 因 为 写 和 奇偶 校 验 信息 会 影响 性 能 。 与 RAID 1 相 比 ，RAID 5 具有 较 高 的 写 人 性 能 
惩罚 ， 因 为 单个 写 入 操作 需要 执行 两 次 读 取 和 两 次 写 入 操作 。 然 而， 对 于 大 数据 块 的 顺 
序 写 人， 通常 可 通过 内 部 优化 来 避免 这 一 惩罚 ， 因 为 奇偶 校 验 可 以 在 内 存 中 进行 计算 . 
RAID 5 只 能 提供 单 奇偶 校 验 。 因 此 ， 如 果 两 个 驱动 器 出 现 故 障 或 磁盘 重建 过 程 中 出 错 ， 
此 RAID 类 型 更 容易 导致 数据 丢失 





图 2-11 RAID 5 带 分 布 式 奇 偶 校 验 块 的 独立 数据 磁 人 盘 


设计 因素 


数据 保护 


最 小 磁盘 数 
每 GB 成 本 


RAID 写 惩 罚 


运 维 注意 事项 


典型 的 应 用 场景 


关键 设计 特点 


表 2-8 RAID 6 一 一 带 两 个 独立 奇偶 校 验方 案 的 独立 数据 磁盘 


描 述 

RAID 6 与 RAID 5 类 似 ， 但 奇偶 校 验 数据 会 写 人 两 个 驱动 需 。 这 意味 着 至 少 需要 4 个 磁 
盘 ， 但 只 能 允许 两 个 驱动 器 同时 出 现 故 障 。 尽 管 两 个 驱动 器 同时 出 现 故障 的 几率 非常 小 ， 
但 如 果 RAID 5 系统 中 的 一 个 驱动 器 出 现 故 障 并 替换 为 新 的 驱动 器 ， 重 建新 磁盘 也 可 能 需 
要 数 小 时 才能 完成 。 如 果 另 一 个 驱动 需 在 此 期 间 出 现 故障 ， 则 可 能 会 丢失 磁盘 集中 的 所 有 
数据 。 不 过 ， 在 RAID 6 磁盘 集 内 ， 即 使 第 2 个 驱动 器 出 现 故 障 ， 磁 盘 集 内 的 数据 也 不 会 
丢失 

与 RAID 5 一样，RAID 6 读 取 数据 操作 非常 快 。 两 个 驱动 器 出 现 故障 时 ， 你 仍然 可 以 
访问 所 有 数据 ， 即 使 正在 替换 出 现 故 障 的 驱动 器 也 是 如 此 。 因 此 ， 从 可 用 性 角度 来 看 ， 
RAID 6 比 RAID 5 更 安全 

写 入 数据 事务 缓慢 ， 因 为 需要 计算 奇偶 校 验 上 且 驱 动 器 故障 会 影响 吞吐 量 ， 尽 管 通常 这 种 
情况 仍 可 以 接受 。 此 外 ， 一 个 驱动 器 出 现 故障 时 重建 RAID 集 可 能 需要 很 长 的 时 间 。 此 技 
术 通 常 比 RAID 5 更 复杂 ， 因 此 ， 掌 握 此 技术 的 IT 人 员 较 少 


随机 读 取 性 能 良好 ， 顺 序 读 取 性 能 非常 好 
4 
经 济 性 较 好 ， 可 用 容量 占 裸 磁盘 总 存储 量 的 75% 


RAID 6 与 RAID 5 几乎 相同 ，RAID 5 仅 计算 一 次 奇偶 校 验 ， 而 RAID 6 必须 计算 两 次 。 
因此 ， 需 要 进行 3 次 读 取 和 3 次 写 人 ， 所 以 RAID 6 惩罚 为 6 


运 维 复 杂 度 一 般 ， 运 维 团队 不 太 了 解 此 项 技术 


RAID 6 是 一 个 良好 的 综合 解决 方案 ， 集 高 效 存储 与 高 可 用 性 和 出 色 的 性 能 于 一 身 。 对 于 
部 署 大 量 高 容量 驱动 器 作为 数据 存储 的 文件 和 应 用 服务 器 而 言 ，RAID 6 比 RAID 5 更 合适 





与 RAID 5 相 比 ，RAID 6 可 提供 最 佳 保 护 和 读 取 性 能 。 然 而 ，RAID 6 的 写 人 性 能 惩罚 
较 高 ， 因 为 执行 单个 写 人 操作 需要 执行 3 次 读 取 和 3 次 写 入 





图 2-12 RAID 6 带 两 个 独立 奇偶 校 验方 案 的 独立 数据 磁盘 


除了 这 些 RAID 级 别 之 外 ， 一 些 存储 系统 还 会 使 用 其 他 不 常见 的 RAID 类 型 。 一 些 存储 供应 商 也 会 开发 自己 的 RAID 集 ， 用 于 
提供 供应 商 特有 的 功能 。 例 如 ，NetApp 的 RAID DP 可 提供 与 RAID 6 类 似 的 功能 集 。 但 是 ， 在 NetApp 实 施 中 ， 奇 偶 校 验 并 不 是 
分 布 在 所 有 磁盘 中 。RAID DP 使 用 两 个 特定 磁盘 进行 奇偶 校 验 。 


RAID 集 可 以 提供 数据 保护 ， 但 是 单独 的 物理 磁盘 无 法 提供 任何 保护 。 因 此 ， 需 要 使 用 热 备 盘 来 保护 每 个 故障 磁盘 。 


单个 磁盘 的 性 能 会 受到 物理 结构 和 电子 元 件 速度 等 因素 的 限制 ， 对 于 机 械 主 轴 ， 还 会 受到 物理 运动 的 限制 。 出 现 介质 故障 和 
连接 故障 等 问题 时 ， 这 些 设 备 仍 会 损坏 。 热 备 盘 是 存储 阵列 中 的 空 闪 驱动 器 。 当 存储 阵列 中 的 活动 RAID 集 成 员 磁 盘 出 现 故 障 
时 ， 热 备 盘 可 以 临时 或 永久 替代 故障 磁盘 。 操 作 如 下 : 


1) 发 生 故 障 时 ， 热 备 盘 会 取代 存储 阵列 中 的 故障 驱动 器 。 

2) 数据 会 恢复 到 热 备 盘 ， 具 体操 作 取决 于 所 实施 的 RAID 类 型 。 

3) 如 果 使 用 了 奇偶 校 验 ， 则 会 使 用 仍 在 运行 的 驱动 器 中 的 奇偶 校 验 和 数据 将 数据 重建 到 热 备 盘 上 。 

4) 如 果 使 用 了 镜像 ， 则 会 使 用 仍 在 运行 的 镜像 磁盘 中 的 数据 将 数据 重建 到 热 备 盘 上 。 

工程 师 将 故障 驱动 器 蔡 换 为 新 的 磁盘 时 ， 会 发 生 下 列 情形 之 一 ， 这 是 大 多 数 现代 存储 系统 上 的 全 自动 机 制 。 

` 使 用 热 备 盘 永 久 替 换 新 的 驱动 器 ， 这 意味 着 该 磁盘 已 不 再 是 热 备 盘 ， 需 要 在 存储 系统 上 重新 配置 一 个 新 的 热 备 盘 。 


工程 师 插入 替换 驱动 器 后 ， 新 的 驱动 器 将 添加 到 系统 中 ， 热 备 盘 中 的 数据 将 复制 到 新 的 驱动 器 中 。 热 备 盘 随后 恢复 之 前 的 
空 闪 状态， 以 便 在 下 一 次 驱动 器 故障 时 进行 替换 。 进 行 存储 设计 时 ， 应 确保 热 备 盘 大 小 足以 容纳 故障 驱动 器 中 的 数据 ， 并 且 根 据 
不 同 的 驱动 器 类 型 来 提供 不 同 的 热 备 盘 。 


7.RAID 概 要 


如 上 所 述 ， 在 存储 阵列 上 实施 RAID 集 可 提供 几 个 关键 优势 。 例 如 ， 控 制 器 拥有 更 多 可 读 取 或 写 入 的 物理 磁盘 设备 ， 从 而 提 
高 性 能 ; 物理 磁盘 驱动 器 发 生 故 障 时 ，RAID 控 制 器 可 以 通过 奇偶 校 验 信息 或 镜像 重新 构建 丢失 的 数据 ， 从 而 提高 了 可 用 性 。 


如 你 所 见 ， 驱 动 器 可 通过 各 种 方式 分 组 在 一 起 ， 形 成 RAID 集 。 用 于 对 驱动 器 分 组 的 方法 被 称 为 RAID 类 型 或 RAID 级 别 。IT 组 
织 和 服务 提供 商 最 常用 的 是 RAID 级 别 0、1、5、6 和 10， 根 据 特定 负载 要 求 ， 每 个 级 别 都 可 以 提供 最 佳 性 能 和 /或 可 用 性 。 


但 是 ， 与 基于 奇偶 校 验 的 原生 RAID 集 相 比 ， 实 施 镜像 和 府 套 RAID 集 更 为 昂贵 ， 因 为 需要 更 多 的 磁盘 ， 而 每 GB 存储 的 成 本 
也 更 高 ， 因 为 需要 大 量 驱动 器 来 提供 元 余 。 尽 管 成 本 高 昂 ， 伦 套 RAID (尤其 是 RAID 1+0) 仍 得 到 广泛 应 用 ， 因 为 它 可 以 解决 与 
奇偶 校 验 RAID 相 关 的 可 靠 性 问题 。 


最 初 实施 一 个 新 的 存储 系统 时 ， 将 同时 安装 RAID 集 内 的 所 有 驱动 器 ， 使 得 所 有 驱动 器 都 处 于 相同 的 状态 ， 尤 其 是 操作 条 件 
和 磨损 情况 。 因 此 ， 当 一 个 驱动 器 出 现 故 障 时 ， 阵 列 中 的 另 一 个 驱动 器 很 可 能 也 会 在 短 时 间 内 出 现 故障 ， 这 是 由 于 平均 故障 间隔 
时 间 (Mean Time Between Failures，MTBF) 以 及 负载 增加 造成 的 ， 也 可 能 归咎 于 墨 非 定律 。 尽 管 如 此 ， 在 进行 存储 设计 
时 ， 应 考虑 到 多 驱动 器 故障 的 风险 。 因 为 某 些 RAID 级 别 (如 RAID 5 和 RAID 1) 只 能 允许 一 个 驱动 器 故障 ， 茶 换 故 障 驱动 器 并 在 
新 的 交换 磁盘 上 重建 之 前 ， 存 储 系统 及 其 包含 的 数据 很 容易 被 损坏 。 


即使 重建 故障 磁盘 时 未 发 生 其 他 磁盘 故障 ，RAID 集 内 的 其 余 磁盘 也 可 能 包含 坏 扇 区 或 不 可 读 的 数据 ， 这 会 导致 无 法 完全 重 
建 故障 磁盘 上 的 信息 。 赃 套 RAID 级 别 在 一 定 程度 上 可 以 解决 该 问题 ， 方 法 是 提供 更 高 的 元 余 级 别 ， 并 降低 不 同 镜像 集中 同时 发 
生 磁 盘 故 障 而 导致 RAID 集 故障 的 概率 。 


除了 常见 RAID 级 别 之 外 ， 还 存在 一 些 非 标准 的 RAID 级 别 ， 这 些 级 别 较 少 实施 ， 或 者 可 通过 专 有 选项 提供 特定 的 存储 供应 商 
硬件 。 本 书 将 不 详细 论述 。 一 些 很 少 实施 但 值得 注意 的 RAID 技 术 包 括 : 


. RAID 03 (RAID 0+3， 也 称 为 RAID 53 或 RAID 5+3) 比 RAID 3 具有 更 高 的 交易 速率 (单位 时 间 完 成 的 处 理 数 ) ， 并 且 可 
以 提供 RAID 10 的 所 有 保护 ， 但 也 存在 缺点 。 


: RAID 50 (RAID 5+0) 同时 具有 分 布 式 奇 偶 校 验 (RAID 5) 与 条 带 化 (RAID 0) 。 
RAID DP 是 NetApp 的 专 有 技术 ， 与 RAID 6 磁盘 集 类 似 ， 在 一 个 RAID 组 中 实施 双 奇 偶 校 验 保护 。 


最 后 要 考虑 的 是 MO 传输 机 制 ， 将 在 第 3 章 中 详细 介绍 。 人 存储 架构 师 应 知晓 ， 原 始 I/O 数 量 不 会 考虑 传输 方式 (如 光纤 通道 或 
iSCSI) 。 对 于 许多 IT 组 织 和 服务 提供 商 而 言 ， 尽 管 存 储 /O 传 输 方式 是 重要 的 考虑 因素 ， 但 它 并 不 会 直接 影响 每 秒 /MO， 也 不 会 
直接 用 于 任何 IOPS 公 式 或 作为 设计 的 一 部 分 进行 计算 。 传 输 方式 非常 重要 ， 其 原因 将 在 下 一 章 里 讨论 ， 但 它 并 非 实现 应 用 MO 性 
能 的 设计 要 求 。 


2.1.2 ”虚拟 置 备 


虚拟 置 备 也 称 为 精简 置 备 ， 现 代 存 储 系统 磁盘 池 通 常 能够 在 将 LUN 提 供给 vSphere 平 台 时 ， 使 所 提供 的 存储 容量 比 后 端 存 储 
系统 实际 分 配给 LUN 的 容量 多 。vSphere 管 理 员 也 可 以 在 虚拟 化 层 应 用 精简 配置 ， 但 在 这 种 情况 下 ， 我 们 特 指 在 存储 阵列 级 别 应 
用 的 精简 置 备 。 


存储 管理 员 面 临 的 最 大 挑战 之 一 是 ， 平 衡 其 数据 中 心 内 各 种 应 用 所 需 的 存储 空间 。 通 常 ， 人 存储 管理 员 会 根据 给 定 应 用 的 预测 
增长 需求 分 配 空间 。 这 样 可 以 降低 因 初始 置 备 存储 不 足 而 导致 的 运 维 开销 和 应 用 停机 风险 。 某 些 应 用 可 能 需要 计划 停机 以 扩展 其 
存储 容量 。 这 种 主动 行为 通常 要 求 超额 置 备 存储 ， 因 此 需要 增加 电源 利用 率 、 散 热 和 数据 中 心 占用 空间 ， 从 而 导致 成 本 增加 。 通 
过 在 存储 层 使 用 虚拟 置 备 技术 在 很 大 程度 上 可 以 应 对 这 些 运 维和 成 本 挑战 。 


采用 虚拟 置 备 ， 存 储 管理 员 能 够 为 主机 系统 或 集群 提供 精简 置 备 LUN， 使 提供 给 vSphere 的 容量 多 于 实际 分 配给 存储 系统 上 
的 LUN 的 容量 ， 如 图 2-13 所 示 。 为 此 ， 可 以 使 存储 阵列 从 共享 物理 磁盘 容量 池 中 将 物理 存储 按 需 分 配给 LUN。 这 种 机 制 只 会 
用 虚拟 机 实际 需要 的 物理 磁盘 容量 ， 从 而 降低 了 分 配 的 物理 存储 总 量 ， 并 显著 提高 了 存储 资源 的 效率 。 


vSphere 
告 容 量 





共享 存储 池 
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图 2-13 ”虚拟 精简 置 备 


精简 置 备 的 另 一 优势 是 ， 能 够 超额 分 配 存 储 资源 ， 这 意味 着 置 备 决策 不 受 限于 阵列 当前 可 用 的 物理 磁盘 。 例 如 ， 在 表 2-9 
中 ， 存 储 管理 员 计 划 使 用 传统 厚 置 备 方法 来 配置 3 个 新 的 LUN， 以 提供 给 现 有 vSphere 集 群 。 存 储 系统 的 当前 可 用 总 量 为 2TB。 


表 2-9 厚 置 备 示例 


LUN ID LUN 置 备 容量 未 用 容量 


如 上 例 所 示 ， 存 储 阵列 包含 350GB 数 据 ， 但 是 1.5TB 的 已 分 配 容 量 并 未 使 用 ，150GB 的 存储 空间 尚未 置 备 。 





两 周 后 ， 配 置 了 新 的 vSphere 集 群 ， 新 虚拟 机 需要 配置 400GB 的 存储 容量 。 但 是 ， 存 储 系统 只 有 150GB 尚 未 置 备 的 容量 ， 所 


以 在 不 添加 新 硬件 的 情况 下 ， 是 不 可 能 满足 新 集群 400GB 人 存储 要 求 的， 即使 阵列 中 还 有 1.5TB 的 容量 尚未 用 于 现 有 负载 也 是 如 
此 。 本 例 说 明 ， 使 用 传统 存储 厚 置 备 机 制 时 会 出 现 人 存储 无 法 充分 使 用 的 情况 。 


假设 同样 的 2TB 存 储 阵列 ， 采 用 虚拟 置 备 技术 时 ， 容 量 置 备 将 不 受 限 于 可 用 存储 。 存 储 管理 员 会 创建 3 个 相同 的 LUN， 示 使 
用 的 存储 系统 未 分 配 任 何 物理 容量 。 因 此 ， 在 虚拟 置 备 环境 中 使 用 相同 的 值 时 ， 即 350GB 数 据 和 1.65TB 可 用 容量 ， 存 储 阵列 中 
的 资源 远 远 超出 新 vSphere 和 集群 所 需 的 资源 。 这 与 传统 存储 厚 置 备 机 制 相反 ， 传 统 存 储 只 有 150GB 可 用 磁盘 空间 ， 且 新 的 集群 需 
要 新 的 存储 资源 ， 如 图 2-14 所 示 。 
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图 2-14 传统 置 备 与 虚拟 置 备 


随 着 虚拟 化 负载 所 用 容量 增多 ， 池 中 的 可 用 物理 磁盘 资源 将 逐渐 减少 。 人 存储 运 维 团 队 可 定义 超额 置 备 的 可 接受 级 别 并 定期 进 
行 监控 ， 这 一 点 非常 重要 。 运 维 团队 应 限制 超额 置 备 的 级 别 ， 以 确保 物理 存储 资源 耗 尽 或 向 池 中 添加 新 的 磁盘 之 前 ， 可 用 容量 不 
会 低 于 可 接受 级 别 ， 这 对 环境 的 整体 运行 状况 非常 关键。 如 果 可 用 容量 低 于 可 接受 级 别 ， 正 在 运行 的 虚拟 机 和 vSphere 主 机 尝试 
将 数据 写 入 阵列 时 ， 会 出 现 严重 错误 ,很 可 能 导致 多 个 应 用 不 可 用 。 


1. 虚 拟 置 备 设计 注意 事项 


在 存储 阵列 上 部 署 厚 置 备 LUN 时 ， 需 要 预先 分 配 全 部 容量 ， 因 此 ， 人 存储 管理 员 通 常会 分 配 最 小 有 效 容量 以 防止 空间 浪费 。 
在 vSphere 层 通过 精简 置 备 进行 超额 置 备 可 以 更 高 效 地 利用 空间 。 但 是 ， 当 容量 用 尽 后 ， 必 须 扩展 LUN 或 置 备 更 多 LUN。 


在 精简 置 备 LUN 中 ， 可 以 在 一 开始 就 分 配 大 量 的 容量 ， 预 先 只 使 用 一 小 部 分 容量 。 从 主机 角度 来 看 ， 它 可 以 使 用 分 配给 虚 
拟 机 的 所 有 空间 。 然 而 ， 随 着 LUN 上 的 空间 逐渐 被 虚拟 机 所 消耗 ， 存 储 阵 列 会 将 人 存储 池 中 的 容量 动态 地 添加 到 置 备 空间 中 。 


精简 置 备 LUN 降 低 了 消耗 的 存储 量 ， 与 此 同时 也 带 来 了 新 的 管理 挑战 ， 尤 其 是 vSphere 和 存储 层 都 进行 了 超额 置 备 。 由 于 这 
两 个 层 无 法 相互 协调 ， 因 此 需要 对 这 两 个 环境 进行 有 效 监控 。 如 果 不 对 该 环境 中 存储 阵列 和 vSphere 平 台 上 的 存储 资源 的 已 分 配 
容量 和 可 用 容量 加 以 监控 ， 存 储 基 础 架构 会 很 容易 出 现 问题 : 一 个 层 的 容量 已 耗 尽 ， 而 另 一 个 层 仍 有 可 用 容量 。 


通常 ， 厚 置 备 LUN 最 适合 此 类 应 用 : 后 端 存储 不 能 出 现任 何 性 能 问题 的 应 用 或 始终 要 求 高 性 能 级 别 以 满足 服务 级 别 协议 的 
应 用 。 在 此 类 第 1 层 业务 天 键 型 事务 应 用 环境 中 ， 空 间 一 般 不 太 重要 。 在 这 种 类 型 的 设计 用 例 中 ， 容 量 通常 处 于 空闲 状态 ， 因 为 
存储 管理 员 在 大 量 磁盘 上 分 配 的 容量 远 远 超出 实际 所 需 容量 ， 以 便 满 足 应 用 I/O 需 求 而 非 存 储 容量 需求 。 随 着 越 来 越 多 的 用 例 采 
用 全 闪存 磁盘 配置 ， 这 种 方法 正在 改变 。 


在 此 类 传统 存储 环境 中 ， 精 简 置 备 LUN 最 适合 的 环境 是 ， 需 要 重点 关注 空间 效率 ， 或 者 存储 资源 灵活 性 至 天 重要 。 
VMware ESXi 虚 拟 化 层 能 够 通过 在 vSphere 层 进行 精简 置 备 来 模拟 精简 置 备 LUN 的 功能 。 使 用 此 功能 部 署 虚拟 机 时 ， 虚 拟 化 层 
仅 使 用 每 个 虚拟 磁盘 所 需 的 容量 ， 然 后 随 着 虚拟 机 大 小 的 增长 ， 动 态 地 扩展 所 用 虚拟 磁盘 空间 量 。 这 项 技术 最 初 主要 用 于 厚 置 备 
LUN， 但 也 可 以 用 于 精简 置 备 LUN。 表 2-10 介 绍 了 存储 阵列 层 的 传统 厚 置 备 和 虚拟 置 备 的 典型 用 例 。 


表 2-10 虚拟 置 备 设 计 注 意 事项 


传统 厚 置 备 使 用 场景 虚拟 精简 置 备 使 用 场景 
需要 最 佳 性 能 和 最 佳 可 预测 性 能 需要 保证 空间 效率 
需要 精确 的 数据 放置 扩展 资源 时 对 主机 影响 最 小 


降低 功 耗 和 节省 资金 成 本 是 首要 任务 


\ 太 关注 空间 效率 ee 
个 太 关 注 空间 效 应 用 的 空间 要 求 和 使 用 难以 预测 


2. 虚 拟 置 备 分 层 


如 本 章 前 面部 分 所 提 及 ， 你 也 可 以 在 计算 和 vSphere 层 进行 精简 置 备 ， 不 预先 为 虚拟 机 磁盘 文件 (VMDK) 分 配 存储 ， 仅 在 
虚拟 机 写 入 磁盘 时 按 需 清 零 。 


我 们 将 讨论 在 虚拟 化 层 和 存储 阵列 级 别 分 层 部 署 厚 置 备 和 精简 置 备 存储 时 的 设计 注意 事项 ， 其 中 包括 : 厚 置 备 在 厚 置 备 之 上 
(thick-on-thick) 、 厚 置 备 在 精简 置 备 之 上 (thick-on-thin) 、 精 简 置 备 在 厚 置 备 之 上 (thin-on-thick) 以 及 精简 置 备 在 精 
简 置 备 之 上 (thin-on-thin) 。 


在 vSphere 环 境 中 ， 可 通过 3 种 格式 部 署 VMDK: 精简 置 备 (Thin) 、 厚 置 备 延迟 置 零 (Lazy Zeroed Thick，LZT) 或 厚 置 
备 预 置 零 (Eager Zeroed Thick，EZT) 。 精 简 置 备 和 厚 置 备 磁 盘 文 件 都 会 使 用 延迟 置 零 ， 其 中 ， 磁 盘 块 初始 置 零 将 延迟 到 虚拟 
机 完成 首次 写 入 后 执行 。 但 是 ， 厚 置 备 预 置 零 磁盘 块 将 在 磁盘 置 备 时 预先 分 配 零 ， 因 此 无 需 在 虚拟 机 正常 操作 期 间 首次 写 入 时 将 
磁盘 置 零 。 相 比 其 他 磁盘 格式 ， 此 格式 可 以 将 性 能 提升 10% ~ 20%。 


图 2-15 和 表 2-11 说 明了 在 存储 阵列 厚 部 署 和 精简 部 署 的 LUN 上 部 署 vSphere 精 简 置 备 技 术 的 结果 。 实 际 上 ， 我 们 是 在 
vSphere 主 机 层 和 存储 阵列 层 上 依次 分 层 部 署 这 两 种 机 制 ， 以 便 最 大 限度 地 提高 磁盘 效率 。 


存储 层 置 备 虚拟 化 层 可 见 性 虚拟 机 置 备 结果 
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ESXi 主 机 : 磁盘 已 满 ' 
Et 存储 层 : LUN 已 满 











1 主 汪 3 虚拟 机 已 分 配 容量 : 100GB 厚 置 备 
vSphere 系 统 : 100GB 5 cB 操作 系统 Ca 虚拟 机 可 用 容量 : 95GB 厚 置 备 


ESXi 主 机 : 95GB 空 闲 
存储 层 : 95GB 空 闲 





vSphere 系 统 : 100GB 
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ESXi 主 机 : 错误 ' 
存储 层 : LUN 已 满 


本 


ESXi 主 机 : 95GB 空 闲 ' 
存储 层 : 95GB 空 闲 
虚拟 机 已 分 配 容量 : 100GB 精 简 置 备 ， 
虚拟 机 可 用 容量 : 95GB 精 简 置 备 。 


| 


图 2-15 ”虚拟 置 备 分 层 
表 2-11 虚拟 置 备 设计 因素 


i 厚 置 备 虚拟 机 / 精简 置 备 虚拟 机 / 厚 置 备 虚拟 机 / 精简 置 备 虚拟 机 / 
和 厚 置 备 存储 厚 置 备 存储 精简 置 备 存储 精简 置 备 存储 


阵列 容量 “| 创建 时 完全 分 配 创建 时 完全 分 配 创建 时 部 分 分 配 创建 时 部 分 分 配 
利用 率 每 个 虚拟 机 的 磁盘 总 量 | 每 个 虚拟 机 所 需 的 容量 | 每 个 虚拟 机 的 磁盘 总 量 每 个 虚拟 机 所 需 的 容量 
超额 置 备 虚拟 化 层 存储 阵列 虚拟 化 层 和 存储 阵列 


ee 切 始 化 块 和 阵列 并 分 
em Ee i ri 
和合 销 


如 图 2-15 所 示 ， 需 要 考虑 的 关键 事项 是 ， 虚 拟 化 层 和 存储 阵列 如 何 处 理 置 零 。 在 存储 阵列 使 用 精简 置 备 的 环境 中 ，vSphere 
管理 员 需 要 了 解 虚 拟 化 层 如 何 为 厚 置 备 预 置 零 (EZT) 虚拟 机 预 分 配 数 据 块 。 通 过 在 创建 时 立即 置 零 所 有 块 ， 系 统 将 使 用 精简 置 
备 存储 中 的 全 部 容量 。 随 着 以 同样 的 方式 在 同一 个 存储 上 创建 多 个 虚拟 机 ， 实 际 使 用 的 存储 将 接近 预 分 配 的 存储 ， 如 果 精 简 置 备 
存储 在 池 中 严重 超额 预定 ， 则 会 出 现 磁 盘 资 源 比 预 期 更 快 耗 尽 的 重大 风险 。 





一 些 阵列 会 对 精简 置 备 池 进 行 零 空间 回收 ， 它 们 会 检查 池 中 的 数据 块 ， 如 果 数 据 块 不 包含 任何 数据 ， 则 其 容量 将 返回 到 池 的 
可 用 资源 中 。 这 会 对 阵列 性 能 产生 影响 ， 因 为 当 虚 拟 化 层 尝试 使 用 存储 容量 时 需要 从 池 中 进行 分 配 。 另 外 ， 此 机 制 还 可 能 导致 容 
量 问题 ， 因 为 虚拟 化 层 认 为 已 为 虚拟 机 分 配 了 磁盘 的 所 有 容量 ， 但 其 中 一 些 空间 已 在 后 台 返 回 池 中 ， 并 且 可 能 已 被 其 他 主机 使 
用 。 


除了 影响 存储 阵列 之 外 ， 分 层 部 署 这 两 个 精简 置 备 技术 还 对 虚拟 机 性 能 存在 潜在 影响 。 在 “精简 置 备 在 厚 置 备 之 上 ”的 环境 
中 ， 每 次 主机 代表 虚拟 机 向 LUN 写 入 数据 时 ， 虚 拟 化 层 都 必须 向 块 写 入 零 以 初始 化 空间 。 这 导致 虚拟 化 层 的 写 入 操作 出 现 短暂 
延迟 ， 因 为 每 次 需要 新 块 时 ， 必 须 首 先进 行 初始 化 。 


在 “ 厚 置 备 在 精简 置 备 之 上 ”的 环境 中 也 会 发 生 类 似 情况 : 分 配 的 存储 耗 尽 时 ， 人 存储 阵列 必须 分 配额 外 的 块 。 在 “精简 置 备 
在 精简 置 备 之 上 ”的 环境 中 ， 扩 展 虚 拟 磁盘 时 ， 这 两 个 操作 都 会 友 生 。 虚 拟 化 层 写 入 数据 时 ， 必 须 从 可 用 容量 池 向 阵列 分 配 存 


储 ， 并 且 在 vsphere 主 机 执行 首次 写 入 操作 之 前 初始 化 块 。 


2.1.3 ”存储 分 层 


近年 来 ，IT 组 织 经 历 了 前 所 未 有 的 数据 增长 ， 这 增加 了 对 数据 中 心 存 储 资源 的 要 求 。IT 组 织 面临 着 重大 挑战 : 数据 激增 且 需 
要 长 期 保留 以 及 管理 这 些 数 据 以 确保 合 规 。 这 些 业 务 数 据 的 存储 成 本 ， 加 上 服务 级 别 协 议 的 要 求 ， 通 常 成 为 需要 思考 的 问题 。 购 
买 更 多 的 高 端 存 储 系统 来 满足 业务 和 监管 要 求 的 方式 不 够 经 济 高 效 ， 因 此 ，|T 组 织 需 要 一 种 方法 以 合理 的 单位 GB 成 本 存储 正确 
的 数据 ， 以 满足 可 用 性 、 性 能 和 可 访问 性 需求 。 

存储 分 层 或 许 有 助 于 解决 这 一 挑战 。 存 储 分 层 可 以 构建 存储 类 型 和 功能 层次 结构 ， 并 有 助 于 识别 活跃 或 不 活跃 的 数据 ， 将 它 
们 重新 放置 到 合适 的 存储 类 型 。 此 解决 方案 能 够 帮助 !T 组 织 以 每 GB 最 优 数 据 成 本 满足 服务 级 别 协议 。 

存储 的 每 一 层 可 提供 不 同 级 别 的 性 能 和 可 用 性 。 例 如 ， 固 态 驱动 器 (SSD) 可 以 配置 为 第 1 层 存 储 ， 用 于 存储 经 常 访问 的 数 
据 ， 服 务 级 别 协议 通常 要 求 第 1 层 人 存储 能 够 提供 高 性 能 。 同 时 ， 低 成 本 的 近 线 SAS (NL-SAS) 机 械 驱 动 器 可 以 配置 为 第 4 层 存 储 
解决 方案 ， 用 于 存储 不 常 访问 的 数据 ， 这 种 方案 的 每 GB 成 本 显著 降低 。 这 样 ， 存 储 团队 可 以 将 活跃 ( 热 ) 数据 迁移 到 SSD 上 ， 
以 提高 应 用 性 能 ， 并 将 非 活跃 ( 冷 ) 数据 迁移 到 NL-SAS 磁 盘 上 ， 以 释放 高 性 能 驱动 器 上 的 容量 ， 从 而 降低 存储 解决 方案 的 整体 
成 本 。 


I 组织 的 分 层 策略 可 以 根据 各 种 因素 进行 数据 迁移 ， 这 些 因素 包括 : 
. 文件 类 型 


访问 频率 


可 用 性 
" 数据 中 心 位 置 


例如 ， 如 果 根 据 人 存储 分 层 策略 定义 ， 将 30 天 内 没有 访问 记录 的 文件 移动 ， 到 较 低 层 的 存储 ， 那 么 所 有 满足 此 条 件 的 文件 都 
将 被 移动 ， 以 符合 该 策略 的 要 求 。 如 图 2-16 所 示 ， 此 策略 的 优势 是 降低 每 GB 成 本 ， 但 通常 也 会 导致 访问 数据 的 速度 较 慢 。 





容量 更 大 


图 2-16 ”分 层 存 储 系 统 


然而 ， 同 样 重 要 的 一 点 是 ， 仅 仅 呈 现 服务 级 别 可 能 无 法 构建 一 个 完整 的 分 层 存 储 解决 方案 ， 因 为 服务 级 别 与 具体 的 硬件 性 能 
相关 。 服 务 级 别 还 受到 其 他 因素 的 影响 ， 例 如 人 员 和 流程 。 


图 2-17 显 示 了 某 个 企业 IT 组 织 中 的 手动 分 层 策略 示例 ， 以 及 与 特定 存储 层 及 其 性 能 相关 的 组 件 技术 。 


































第 I 层 第 za | 和 sa | 和 
EEC 号 
<8 ms 7~14 ms 12~30 ms 12~30 ms 
可 用 性 人 <26.5 <26.5 <52.5 <263 
EL 
J 
| 。 读 取 访 问 频率 < 每 小 时 1 次 | | < 每 小 时 1 次 || 每 天 1! 次 
[La Is Ia 
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时 | 恢复 时 间 目 标 CRro) | | 数据 还 原 时 间 <2 小 时 || <12 小 时 || <48 小 时 || <72 小 时 | 








图 2-17 存储 分 层 设 计 示 例 


本 例 可 满足 典型 的 企业 客户 需求 。 然 而 ， 手 动 存储 分 层 只 是 IT 组 织 的 一 种 选择 。 大 多 数 存储 供应 商 还 会 提供 自动 化 分 层 解决 
方案 。 自 动 化 分 层 解决 方案 已 完全 集成 到 阵列 软件 中 ， 因 此 ， 可 以 减少 与 手动 数据 分 层 相关 的 运 维 开销 。 


采用 更 传统 的 手动 分 层 方 法 时 ， 人 存储 团队 需要 监控 负载 并 定期 在 不 同 层 之 间 移 动 数据 。 这 些 重 复 操作 非常 耗 时 ， 需 要 数 小 时 
甚至 数 天 才能 完成 。 而 自动 化 存储 分 层 则 以 更 自动 化 的 方式 解决 了 与 数据 保留 和 访问 相关 的 诸多 挑战 ， 我 们 将 在 下 文 详细 介绍 。 


1. 自 动 化 存储 分 层 


自动 化 存储 分 层 提供 两 种 机 制 : 阵列 内 (存储 系统 内 部 ) 和 阵列 间 (不 同 存 储 系统 间 ) 。 


阵列 内 的 机 制 通过 高 效 地 使 用 不 同 的 机 械 盘 和 SSD 技 术 自 动 化 单个 存储 阵列 内 的 存储 分 层 过 程 ， 以 最 优 的 成 本 提供 最 佳 的 性 
能 。 存 储 阵 列 中 的 自动 化 存储 分 层 机 制 可 以 监控 负载 并 自动 地 将 活跃 数据 移动 到 性 能 更 高 的 层 ， 同 时 将 不 活跃 数据 移动 到 性 能 较 
低 且 容量 较 高 的 驱动 器 上 。 


其 最 终 目标 是 ， 将 需要 频繁 访问 的 数据 存储 在 性 能 最 高 的 介质 上 ， 而 将 不 太 活跃 的 数据 移动 到 低层 容量 驱动 器 上 。 在 存储 阵 
列 的 磁盘 池内 ， 这 些 数据 移动 通常 在 子 LUN 级 别 执行 。 


作为 对 此 自动 化 分 层 机 制 的 补充 ， 很 多 存储 供应 商 还 会 提供 缓存 分 层 技 术 ， 通 过 将 经 常 访问 的 数据 长 期 存储 在 阵列 上 配置 的 
专用 SSD 缓 存 中 来 显著 提高 阵列 的 性 能 。 此 技术 可 以 在 DRAM ( 主 缓存 机 制 ) 与 SSD (二 级 缓存 机 制 ) 之 间 进 行 缓存 分 层 。 利 用 
此 技术 ， 阵 列 可 以 在 缓存 层 人 存储 更 多 频繁 访问 的 数据 ， 并 且 可 以 直接 从 主 缓存 或 二 级 缓存 执行 大 量 读 取 操 作 ， 从 而 显著 提高 了 利 
用 率 突 增 时 的 读 写 性 能 。 请 注意 ， 对 于 使 用 SSD 作 为 专用 存储 层 的 池 或 LUN (例如 同 构 SSD 池 ) 而 言 ， 缓 存 层 不 提供 任何 优势 。 


合 注 总 磁盘 池 可 以 是 同 构 的 或 异 构 的 。 同 构 池 仅 包含 一 个 驱动 器 类 型 (如 SSD、SAS 或 NL-SAS) ， 而 异 构 池 则 包含 不 同 
的 驱动 器 类 型 。 


阵列 间 存 储 分 层 可 识别 不 同 存储 阵列 系统 中 的 活跃 或 不 活跃 数据 ， 并 将 数据 自动 迁移 到 不 同 的 性 能 或 容量 层 。 此 类 解决 方案 
通常 可 以 根据 业务 成 本 优化 存储 ， 以 满足 性 能 或 容量 的 要 求 。 


阵列 间 存 储 分 层 解决 方案 使 用 策略 引擎 进行 监控 ， 并 将 不 活跃 或 不 常 访问 的 数据 从 主 存储 迁移 到 二 级 存储 ， 反 之 亦 然 。1T 组 
织 采 用 此 机 制 在 不 同 阵列 系统 中 进行 数据 分 层 的 主要 目的 是 ， 满 足 归档 或 合 规 要 求 。 例 如 ， 策 略 引擎 可 以 配置 为 : 将 主人 存储 系统 
中 6 个 月 未 访问 的 所 有 数据 重新 放置 到 二 级 存储 系统 上 。 此 技术 的 策略 引擎 会 在 主 存储 上 留 下 一 个 小 的 存根 文件 ， 指 向 二 级 存储 
系统 上 的 实际 数据 。 当 用 户 尝 试 从 主 存储 上 的 原始 位 置 访问 该 数据 时 ， 系 统 将 向 用 户 透 明 地 提供 实际 数据 ， 这 些 数 据 即 为 主 存储 
的 存根 文件 所 对 应 的 二 级 存储 系统 数据 ， 如 图 2-18 所 示 。 


表 2-12 自动 化 存储 分 层 的 优点 和 缺点 


优 点 缺 点 

基于 阵列 的 自动 化 分 层 存 储 系统 通常 比 外 部 软件 分 层 解 De A 

决 方案 、 设 备 或 手动 方法 更 高 效 基于 阵列 的 日 动 化 分 层 存 储 通 常 仅 限于 阵列 内 的 
Rs -一 一 一 一 一 一 一 一 存储 ， 在 不 迁移 数据 的 情况 下 ， 无 法 方便 地 用 于 整 

此 机 制 通常 会 创建 更 小 的 块 段 ， 提 供 更 细 的 粒度 。 这 意 合 外 部 存储 平台 
味 着 该 技术 不 太 可 能 执行 不 必要 的 数据 移动 

基于 阵列 的 自动 化 分 层 存 储 系统 能 够 自动 移动 存储 层 之 | ”该 解决 方案 是 基于 块 的 ， 不 支持 需要 本 机 文件 服 
间 的 子 LUN 数据 段 ， 对 于 优化 昂贵 的 SSD 存储 资源 尤为 | 务 的 应 用 ， 因 而 对 于 基于 文件 的 大 多 数 数 据 增长 情 
高 效 形 并 无 益处 

由 于 此 自动 化 存储 分 层 技 术 已 集成 到 存储 控制 器 中 ， 此 与 基于 块 的 外 部 分 层 存储 解决 方案 相 比 ， 基 于 存 
分 层 功 能 可 以 与 需要 移动 块 数据 的 其 他 存储 功能 集成 在 一 | 储 阵 列 的 内 部 自动 化 分 层 存储 系统 的 灵活 性 可 能 欠 


起 ， 如 快照 和 复制 ， 从 而 降低 了 系统 开销 。 使 用 此 技术 无 | 佳 ， 因 为 它 无 法 实现 不 同 平台 间 的 数据 分 层 或 提供 
需 部 署 外 部 自动 化 分 层 存 储 系统 可 重新 利用 现 有 存储 系统 的 方法 


基于 阵列 的 自动 化 分 层 使 扩容 和 存储 管理 更 简单 ， 基 于 自动 化 分 层 通常 不 适合 VDI 环境 中 的 非 持 久 虚 拟 
平台 的 虚拟 化 可 以 独立 扩展 每 一 层 ， 而 无 需 停止 阵列 系统 | 桌面 


应 用 服务 器 






支持 在 层 间 执行 基 
于 策略 的 数据 移动 





混合 第 1 层 第 1 层 主 存储 第 2 层 二 级 存储 


和 第 2 层 存 储 


图 2-18 存储 分 层 机 制 


2. 存 储 分 层 设 计 注 意 事项 


设计 分 层 人 存储 基础 架构 时 ， 架 构 师 在 确定 最 合适 的 解决 方案 前 应 考虑 以 下 设计 因素 : 


. 你 计划 对 哪些 数据 进行 分 层 ? 


你 计划 对 存储 阵列 上 的 所 有 数据 进行 分 层 还 是 仅 对 特定 目标 应 用 上 的 数据 进行 分 层 ? 


* 解决 方案 是 使 用 自动 分 层 还 是 手动 的 方法 ? 


. 如 果 要 在 阵列 上 自动 执行 分 层 ， 应 采用 什么 策略 ? 


例如 ， 有 些 应 用 是 高 度 事务 性 的 或 不 需要 长 时 间 存 储 数 据 ， 这 些 应 用 不 适合 使 用 分 层 技术 ， 因 为 其 中 的 数据 始终 是 活跃 的 。 
性 能 也 是 设计 中 的 一 项 关键 考虑 因素 。 在 将 阵列 上 的 数据 迁移 到 更 高 的 层 时 ， 必 须 从 较 慢 的 磁盘 中 读 取 数 据 ， 这 可 能 会 导致 应 用 
延迟 。 此 外 ， 其 他 设计 因素 还 包括 : 
.如果 要 自动 进行 分 层 ， 并 且 随 时 要 进行 分 层 ， 那 么 将 对 存储 阵列 的 性 能 造成 什么 样 的 影响 ? 
* 或者， 如 果 需 要 手动 维护 分 层 策略 ， 那 么 具体 调度 如 何 ? 
如 果 解 决 方案 是 使 用 阵列 间 分 层 ， 这 些 注意 事项 同样 适用 。 例 如 ， 策 略 引擎 将 如 何 确定 要 分 层 的 数据 ， 以 及 用 户 访问 较 慢 存 
储 阵列 系统 上 的 数据 时 的 性 能 注意 事项 。 此 外 ， 在 设计 和 规划 流程 时 ， 对 于 多 阵列 分 层 解决 方案 ， 还 需要 考虑 一 些 其 他 注意 事 


项 : 
“ 如 果 阵 列 来 自 不 同 的 供应 商 ， 是 否 需 要 维护 不 同 的 管理 工具 ? 如 果 需 要 ， 是 否 可 以 实施 并 管理 ? 


.策略 引擎 功能 是 否 谋 入 在 阵列 硬件 中 ? 是 否 需要 安装 其 他 软件 或 硬件 组 件 ? 


. 数据 如 何在 系统 间 的 架构 中 移动 ? 使 用 前 端 端口 和 网 络 是 否 可 以 实现 ? 会 影响 主机 性 能 吗 ? 或 者 ， 是 否 通过 独立 的 后 端 网 


络 发 送 数据 ? 如 果 是 ， 需 要 使 用 什么 协议 ? 是 否 存在 任何 安全 风险 ? 


虽然 可 以 隔离 分 层 流量 ， 但 是 会 增加 运 维和 管理 复杂 性 ， 并 且 还 需要 其 他 硬件 基础 架构 提供 支持 。 


2.14 人 存储 可 扩展 性 设计 


要 满足 存储 可 扩展 性 要 求 ， 一 个 必须 要 考量 的 因素 就 是 ， 从 方案 设计 之 初 就 考虑 到 数据 增长 需求 。 存 储 的 可 扩展 性 对 不 同 的 
组 织 意义 不 同 。 例 如 ， 某 个 组 织 可 能 将 数据 规划 为 在 3 年 内 从 4TB 增 长 到 8TB， 而 大 型 企业 和 服务 提供 商 则 会 考虑 数据 以 每 年 数 
百 PB 的 速度 增长 。 


谈 及 技术 基础 架构 增长 ， 纵 向 扩展 和 横向 扩展 这 两 个 词 被 广泛 应 用 。 对 于 存储 ， 纵 向 扩展 通常 指 通过 以 下 方式 增加 容量 以 扩 
展 人 存储 设备 : 
. 使 用 更 大 、 更 快 的 磁盘 增加 存储 容量 或 提高 IOPS 
` 添加 DRAM 缓 存 来 提高 IOPS 
* 添加 存储 控制 器 来 提高 吞吐 量 和 IOPS 
* 添加 更 多 或 使 用 更 快 的 前 端 主机 端口 来 扩展 和 提高 吞吐 量 


在 某 些 企业 和 服务 提供 商 环 境 中 ， 单 个 存储 设备 无 法 通过 扩展 来 满足 所 需 的 容量 、 吞 吐 量 或 IOPS。 对 于 这 些 用 例 ， 需 要 在 
每 个 数据 中 心 的 单个 存储 系统 外 进行 扩展 ， 可 采取 横向 扩展 方法 。 但 是 ， 这 会 带 来 一 系列 运 维 管理 挑战 。 


例如 ， 在 图 2-19 所 示 的 设计 示例 构建 块 方案 中 ， 服 务 提供 者 使 用 了 传统 存储 模型 方法 。 从 物理 平台 的 角度 来 看 ， 每 个 构建 
块 包含 96 个 机 架 式 vSphere 计 算 主 机 ， 配 置 为 4 个 24 节 点 VMware vSphere 集 群 ， 平 均 分 布 在 3 个 服务 器 机 柜 和 一 个 双 节 点 
vSphere 本 地 管理 组 件 集群 中 。 每 个 构建 块 还 设 有 两 个 48 端 口 的 10GbE 分 支 交 换 机 、 两 个 48 端 口 的 8GB 多 层 架构 交换 机 ， 以 及 
两 个 1GbE IPMI 管 理 交 换 机 ， 以 便 提 供 带 外 连接 。 每 个 构建 块 都 可 以 提供 一 个 完整 的 计算 、 网 络 和 存储 故障 域 。 
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图 2-19 ”通过 构建 块 方 扩 展 存储 


在 此 设计 示例 中 ， 构 建 块 的 确切 数量 可 以 相应 地 进行 横向 扩展 ， 这 取决 于 服务 提供 商 的 容量 要 求 ， 以 及 数据 中 心 的 硬件 、 软 


件 和 电源 限制 。 


在 本 例 中 ， 此 构建 块 架构 的 每 个 组 件 层 所 提供 的 计算 、 存 储 和 网 络 资源 如 表 2-13 所 示 。 


网 络 带宽 





表 2-13 构建 块 架构 容量 扩展 示例 


每 构建 块 
10.5TB (24 个 节点 ， 其 中 3 个 为 HA 预 留 ) 42TB 


1041.6GHz ( 24 个 节点 ， 其 中 3 个 为 HA 预 留 ) 4166.4GHz 
180TB 


300TB 


1680Gb/s ( 80Gb/s 
MLAG 至 主轴 ) 


无 论 是 小 型 或 中 型 客户 ， 还 是 大 型 服务 提供 商 或 企业 iT 组织， 在 扩展 存储 方面 还 没有 一 个 统一 的 完美 解决 方案 。 但 是 在 设计 
阶段 ， 下 面 几 个 因素 对 于 方案 的 选择 起 着 至 关 重 要 的 作用 ， 如 表 2-14 所 示 。 


要 求 
硬件 扩展 
硬件 限制 
可 用 性 / 弹性 
存储 管理 可 扩展 性 /复杂 性 


表 2-14 存储 可 扩展 性 设计 因素 


纵向 扩展 横向 扩展 


向 现 有 存储 系统 添加 更 多 组 件 添加 更 多 存储 系统 
单 存 储 系统 扩展 限制 总 体 存储 系统 扩展 限制 
出 现 组 件 故障 时 提供 保护 出 现存 储 系 统 故 障 时 提供 保护 


管理 单个 存储 系统 管理 多 个 存储 系统 





在 设计 大 型 存储 构建 块 时 ， 可 能 还 有 其 他 因素 会 影响 所 采用 的 方法 ， 其 中 包括 但 不 限于 : 


“ 预期 服务 和 业务 增长 

“ 硬件 可 用 性 和 交付 周期 

. 物理 硬件 可 扩展 性 限制 例如， 使 用 存储 管理 工具 时 ) 
资本 开销 和 硬件 折旧 


" 数据 中 心 供电 、 空 间 和 散热 限制 


2.1.5 ”存储 管理 工具 


谈 及 存储 系统 运 维 管理 ， 需 要 考虑 许多 相同 的 事项 ， 这 些 考虑 事项 同样 适用 于 虚拟 化 层 和 网 络 管理 ， 如 可 用 性 和 单一 管理 平 
台 。 然而， 人 存储 的 管理 更 加 复杂 ， 尤 其 是 大 型 存储 系统 (有 时 称 为 AN 孤岛 ) 。 你 不 仅 要 应 对 诸多 供应 商 及 其 不 同 的 管理 工 
具 ， 还 需要 应 对 同一 供应 商 的 不 同 产品 线 以 及 所 涉及 的 不 同 管理 工具 。 

管理 此 类 来 自 多 个 供应 商 的 存储 系统 ， 给 运 维 带 来 了 挑战 。 采 用 多 个 管理 工具 通常 需要 为 相关 存储 管理 员 提 供 昂 贵 的 供应 商 
培训 课程 。 此 外 ， 管 理 同 一 存储 供应 商 的 不 同 产品 ， 其 复杂 度 不 亚 于 管理 多 供应 商人 存储 平台 。 这 是 因为 ， 同 一 供应 商 的 不 同 产品 
线 通 常 都 使 用 完全 不 同 的 管理 工具 集 。 

近年 来 ，EMC ViPR 等 产品 尝试 通过 提供 多 供应 商 支 持 来 简化 存储 运 维 管理 ， 以 便 缓 解 这 一 挑战 。 但 是 ， 这 种 类 型 的 集成 履 


盖 软 件 成 本 较 高 ， 所 以 你 可 能 会 考虑 其 他 选择 ， 例 如 ， 通 过 内 部 部 署 云 管 平台 (CMP) 工具 构建 自己 的 内 部 存储 即 服务 
(STaaS) 产品 。 而 通过 存储 阵列 的 开放 API1， 可 以 使 该 产品 成 为 构建 自 定义 工作 流 的 可 行 解决 方案 ， 能 够 简化 日 常 运 维 存储 任 


务 ， 相 关 主 题 将 在 第 9 章 中 进行 详细 介绍 。 


横向 扩展 环境 带 来 了 更 大 的 运 维 复杂 性 。 例 如 ， 一 些 供应 商 的 工具 允许 你 全 局 管理 所 有 存储 系统 ， 存 储 管理 团队 可 以 将 这 些 
系统 视 作 单个 节点 。 而 其 他 管理 工具 则 可 能 会 将 存储 系统 作为 需要 单独 管理 的 完全 独立 的 节点 ， 这 样 可 能 会 比较 复杂 ， 具 体 取 决 


于 环境 的 设计 。 
表 2-15 介 绍 了 大 型 多 供应 商 SAN 环 境 所 面临 的 运 维 管理 挑战 。 


表 2-15 ”多 供应 商 SAN 环 境 的 运 维 挑战 


运 维 情 形 设计 因素 
供应 商 提 供 的 解决 方案 是 否 能 够 在 单一 管理 平台 上 管理 多 个 供应 商 的 存储 


z7 Dos 


东山 ? 
是 否 存 在 第 三 方 软件 或 硬件 选项 ? 
是 否 存 在 可 用 于 构建 自 定 义 存 储 即 服务 解决 方案 的 存 储 API? 


是 否 存在 单一 管理 平台 可 用 于 管理 该 供应 商 的 多 个 产品 ? 
具有 多 个 产品 的 单个 供应 商 是 否 存 在 第 三 方 软件 或 硬件 选项 ? 

是 否 存在 可 用 于 构建 自 定义 存储 即 服 务 解决 方案 的 存储 API? 
rr 所 有 存储 系统 是 作为 单个 实体 还 是 多 个 实体 来 管理 ? 
贰 问 扩展 环境 a a 3 
杷 向 7 信息 和 存储 系 配置 是 否 可 在 平台 上 共享 ? 


多 供应 商 


同 
/下 
VD 
SH 


2.1.6 多 租户 存储 设计 


前 面 ， 我 们 讨论 了 云 服务 提供 商 的 各 种 可 扩展 性 要 求 。 然 而 ， 多 租户 环境 通常 具有 更 多 要 求 ， 以 确保 各 个 租户 的 数据 互相 隔 
离 。 环 境 中 逻辑 层 和 物理 层 的 许多 地 方 都 可 能 需要 进行 存储 隔离 。 根 据 具 体 的 设计 因素 ， 可 以 更 清晰 地 做 出 这 些 设 计 决策 ， 例 
如 ， 使 用 的 CMP、 硬 件 、 磁 盘 池 架构 ， 或 何 处 需要 采用 隔离 。 


设计 可 为 租户 应 用 提供 存储 隔离 的 云 解决 方案 时 ， 有 很 多 方法 可 以 使 用 。 表 2-16 介 绍 了 在 存储 平台 上 采用 传统 方法 时 典型 
的 云 服务 提供 商 选 项 ( 按 隔 离 和 安全 级 别 升 序 排列 ) 。 


表 2-16 多 租户 存储 设计 





这 种 类 型 的 解决 方案 可 提供 所 有 级 别 数 据 的 逻辑 隔离 。 即 使 不 同 租户 的 数据 存储 在 同一 个 
疆 享 磁盘 池 物理 磁盘 上 ， 不 同 的 LUN 或 文件 系统 也 能 提供 逻辑 分 段 。 存 储 系 统 的 软件 和 硬件 组 件 全 部 
共享 ， 例 如 ， 前 端 端 口 和 后 端 端口 、DRAM 缓存 以 及 存储 控制 器 软件 和 管理 
( 续 ) 
云 服 务 提供 商 的 此 解决 方案 可 以 物理 地 分 离 底层 磁盘 子 系统 上 的 数据 ， 每 个 租户 都 有 自己 
独立 磁盘 池 的 磁盘 池 。 其 他 存储 系统 组 件 仍 保持 共享 ， 例 如 ， 前 端 端口 和 后 端 端口 、DRAM 缓存 以 及 存 
储 控制 器 软件 和 管理 
除了 独立 磁盘 池 之 外 ， 此 设计 还 通过 向 特定 租户 提供 专用 前 端 端口 进行 进一步 隔离 ， 通 党 


独立 物理 端口 | 可 以 将 租户 隔离 到 专用 计算 主机 上 。 后 端 端口 隔离 的 设计 通常 要 复杂 得 多 。 系 统 DRAM 组 
存 、 存 储 控制 器 以 及 管理 仍 在 租户 间 共 享 
完全 隔离 最 后 这 个 示例 提供 完整 的 组 件 隔离 。 此 设计 通过 向 租户 分 配 专用 的 存储 系统 扩展 了 之 前 的 
人 异型 ， 满 足 其 特定 平台 要 求 
在 多 租户 环境 中 构建 此 类 解决 方案 时 ， 还 需 考虑 它 会 大 幅 限制 存储 系统 的 可 扩展 性 ， 并 显著 增加 运 维 复杂 性 。 例 如 ， 具 有 8 
个 前 端 端口 的 存储 系统 。 如 果 要 求 向 特定 租户 分 配 端 口 ， 假 设 每 个 租户 至 少 两 个 端口 ， 且 该 存储 系统 上 最 多 可 配置 4 个 租户 ， 那 
么 唯一 的 设计 方案 则 是 部 署 该 8 个 前 端 端 口 系统 的 多 个 实例 ， 以 便 横 向 扩展 设计 或 部 署 更 大 型 系统 ， 从 而 提供 更 高 级 别 的 可 扩展 
性 并 实现 平台 纵向 扩展 。 


2.1.7 ”服务 质量 


服务 质量 (Quality of Service，QoS) 可 通过 一 种 额外 的 机 制 为 多 租户 或 多 层次 环境 中 的 存储 阵列 进一步 提供 基于 服务 级 
别 的 性 能 保证 。 并 非 所 有 存储 供应 商都 提供 此 功能 ，Qos 可 保证 特定 租户 或 负载 的 响应 时 间 、 吞 吐 量 或 带宽 。 在 设计 中 使 用 此 机 
制 可 确保 特定 应 用 能 够 实现 所 需 性 能 级 别 ， 以 满足 所 需 SLA 的 要 求 。 在 多 租户 环境 中 ， 通 常会 严格 执行 SLA，Qos 工 具 可 用 来 强 
制 实施 此 设计 要 求 。 此 外 ， 使 用 Qos 还 可 以 最 大 限度 地 降低 拒绝 服务 (DoS) 攻击 和 相 邻 干扰 的 风险 。 


2.1.8 数据 去 重 和 压缩 


去 重 过 程 也 称 为 智能 压缩 或 单一 实例 存储， 可 在 某 些 三 商 的 存储 系统 的 控制 器 级 别 执行 。 去 重 是 阵列 级 别 的 过 程 ， 通 过 减少 
甚至 消除 所 有 宛 余 数据 节省 存储 系统 上 的 空间 ， 从 而 降低 存储 需求 。 


在 去 重 过 程 中 ， 将 确定 唯一 数据 块 或 字 节 模式 。 当 多 个 文件 具有 相同 的 数据 时 ， 文 件 系统 只 存储 数据 的 一 个 副本 ， 并 在 多 个 
文件 之 间 共 享 此 数据 。 宛 余 块 蔡 换 为 较 小 的 参考 存根 文件 ， 该 文件 指向 所 存储 的 数据 块 ， 尽 管 文件 的 不 同 实例 的 名 称 、 安 全 属性 
和 时 间 惟 会 不 同 ， 去 重 过 程 对 这 些 元 数据 没有 任何 影响 。 


该 技术 可 用 于 各 种 用 途 ， 如 提高 存储 利用 率 或 在 进行 远程 备份 、 复 制 或 灾难 恢复 时 提高 跨 WAN 链 路 进行 网 络 数据 传输 的 传 
输 效 率 。 这 类 设计 方案 的 目的 是 减少 站 点 互 连 必须 传送 的 总 字 节 数 。 


去 重 还 提供 其 他 优势 ， 如 降低 存储 空间 需求 、 降 低 成 本 、 更 高 效 地 使 用 磁盘 空间 ， 从 而 实现 更 长 久 的 磁盘 保留 期 限 ， 并 在 更 
长 的 期 限 内 无 需 磁带 备份 即 可 提供 更 好 的 恢复 时 间 目 标 (RTO) 。 


大 部 分 现代 存储 阵列 系统 在 后 台 执 行 所 有 去 重 过 程 ， 将 数据 写 入 文件 系统 后 对 文件 数据 执行 去 重 。 通 常情 况 下 ， 只 有 备份 或 
存档 磁盘 系统 在 数据 写 入 文件 系统 时 执行 去 重 。 


此 外 ， 大 多 数 阵列 都 会 避免 处 理 活路 数据， 因为 人 们 更 可 能 在 较 短 时 间 内 访问 、 修 改 或 删除 活路 数据。 不 活跃 或 冷 数据 是 数 
据 集 的 最 大 组 成 部 分 ， 这 部 分 数据 占 比 通常 高 达 80%。 正 是 这 些 数据 体现 了 优势 所 在 ,通常 对 阵列 中 的 这 部 分 数据 执行 去 重 。 正 
是 这 些 不 会 处 理 活跃 数据 的 系统 ， 能 够 最 有 效 地 利用 去 重 技术 ， 从 而 最 大 限度 地 提高 空间 利用 率 ， 同 时 最 大 限度 地 减少 对 最 终 用 
户 应 用 的 影响 。 对 于 大 多 数 支持 去 重 技术 的 系统 而 言 ， 存 储 管理 员 可 以 根据 需要 调整 目标 数据 的 选择 标准 ， 可 以 添加 筛选 器 以 根 
据 文件 扩展 名 来 排除 特定 的 文件 类 型 ， 同 时 避免 特定 目录 中 的 文件 、 使 用 特定 名 称 的 文件 或 名 称 中 包含 特定 字符 序列 的 文件 ， 从 
而 优化 特定 环境 下 存储 平台 上 的 过 程 和 性 能 。 


去 重 通 常 与 其 他 形式 的 数据 处 理 结合 使 用 ， 如 传统 压缩 。 压 缩 数据 可 以 节省 额外 的 存储 容量 ， 进 一 步 降低 文件 传输 速度 ， 降 
低 成 本 。 压 缩 的 主要 缺点 是 对 性 能 的 影响 ， 压 缩 和 解压 缩 数 据 需要 使 用 额外 的 CPU 和 内 存 资 源 。 


客户 容易 混淆 压缩 和 去 重 的 概念 ， 事 实 上 ， 这 是 两 个 完全 不 同 的 技术 ， 可 以 互相 配合 使 用 ， 也 可 以 独立 使 用 。 去 重 技术 通过 
识别 存储 系统 或 文件 系统 中 的 元 余数 据 块 ， 并 用 指向 原始 数据 块 的 指针 来 蔡 换 重复 块 ， 从 而 减少 数据 量 。 


但 是 ， 压 缩 技术 是 使 用 算法 来 减少 数据 流 中 的 位 串 大 小 从 而 减少 数据 量 的 。 


2.1.9 ”存储 没 备 安全 性 


存储 阵列 或 任何 备份 介质 上 存储 的 数据 应 进行 加 密 ， 以 确保 数据 安全 性 并 符合 法 规 或 其 他 监管 要 求 。 


任何 存储 设计 都 应 考虑 在 存储 阵列 上 存储 业务 敏感 数据 或 个 人 客户 数据 的 要 求 。 例 如 ， 因 恶意 操作 或 硬件 故障 而 从 存储 阵列 
中 移 除 磁盘 ， 那 么 该 驱动 器 上 人 存储 的 数据 可 能 会 遭遇 未 授权 访问 。 当 硬件 临近 其 使 用 年 限时 ， 系 统 内 的 驱动 器 如 果 未 经 正确 处 
理 ， 也 可 能 会 导致 数据 丢失 或 被 窃 。 


许多 存储 供应 商 提供 了 专 有 技术 来 解决 这 些 数据 安全 挑战 。 通 常人 存在 两 个 关键 的 设计 注意 事项 : 动态 数据 和 静态 数据 。 


对 存储 设备 上 的 数据 加 密 有 两 种 : 发 生 在 将 未 加 密 数 据 从 主机 发 送 到 存储 之 后 ， 即 静态 数据 (data at rest) ; 或 发 生 在 数 
据 传输 过 程 中 将 数据 提交 到 存储 系统 之 前 ， 即 动态 数据 (data in flight) 。 每 个 存储 阵列 供应 商都 提供 了 不 同类 型 的 解决 方 
案 。 一 些 解决 方案 按 主机 或 按 LUN 加 密 数据 ;而 另 一 些 解 决 方案 在 整个 阵列 的 驱动 器 级 别 加 密 数 据 ， 每 个 驱动 器 使 用 唯一 密 角 
进行 加 密 。 从 阵列 中 移 除 某 个 驱动 器 或 替换 整个 阵列 会 使 存储 的 数据 不 可 用 ， 因 为 解密 密 钥 通 常 存储 在 外 部 设备 上 。 


2.1.10 ”硬件 高 可 用 性 


在 大 部 分 现代 企业 级 存储 系统 中 ， 硬 件 组 件 高 可 用 性 已 成 为 标准 。 这 种 基本 硬件 层 可 用 性 通常 通过 提供 元 余 组 件 而 实现 ， 如 
前 端 主机 端口 、 缓 存 、 后 端 端口 、 电 源 ， 散 热风 扇 、 磁 盘 路 径 以 及 热 备份 驱动 器 。 对 于 基于 块 的 人 存储 系统 ， 阵 列 上 的 元 余 控 制 器 
可 以 镜像 缓存 ， 这 样 发 生 故障 时 不 会 丢失 数据 。 一 个 控制 器 或 前 端 端 口 发 生 故 障 时 ，vSphere 主 机 可 以 使 用 多 路 径 软 件 以 使 MO 
可 以 移动 到 其 他 可 用 路 径 上 ， 确 保存 储 设备 的 可 访问 性 。 


对 于 主动 /被 动 存 储 阵 列 ， 控 制 器 故障 往往 会 导致 MO 暂 时 中 断 ， 而 LUN 访 问 会 转移 到 备用 控制 器 上 。 这 通常 无 法 察 党 到 ， 
但 此 类 硬件 的 此 类 故障 事件 可 能 会 对 延迟 敏感 型 应 用 产生 负面 影响 。 


无 论 是 主动 /主动 或 主动 /被 动 存储 控制 器 ， 架 构 师 在 进行 设计 时 应 确定 在 中 断 期 间 是 否 可 保持 性 能 水 平 。 例 如 ， 在 双 存 储 控 
制 器 系统 中 ， 为 了 保持 服务 级 别 ， 可 能 要 求 在 正常 操作 条 件 下 所 有 处 理 器 不 得 超过 50% 的 利用 率 ， 从 而 确保 在 发 生硬 件 故障 时 性 


能 不 会 降低 。 


对 于 基于 文件 的 存储 系统 ， 上 述 许多 原则 仍然 适用 。 然 而 ， 宛 余 将 由 多 个 NAS 头 而 非 多 个 存储 控制 器 来 实现 ， 这 多 个 NAS 
头 也 可 以 是 主动 /主动 或 者 主动 /被 动 模式 。 在 主动 /主动 NAS 环 境 中 ， 多 个 NAS 头 可 以 同时 读 取 和 写 入 同一 文件 系统 。 如 果 某 个 
NAS 头 出 现 故 障 或 需要 维护 ， 仍 然 可 以 通过 其 他 硬件 进行 访问 。 在 主动 /被 动 系统 中 ， 一 个 NAS 头 通常 拥有 特定 的 文件 系统 ， 在 
故障 事件 期 间 ， 该 文件 系统 会 故障 切换 到 其 他 NAS 头 上 。 完 成 NAS 头 故障 切换 所 需 的 时 间 因 存储 供应 商 而 异 ， 因 此 在 评估 基于 
NAS 的 解决 方案 时 ， 应 考虑 这 一 因素 。 然 而 ， 与 基于 块 的 存储 阵列 不 同 ， 由 于 对 NFS 版 本 3 的 支持 ，vSphere 主 机 没有 原生 多 路 
径 机制 。 因 此 ， 在 设计 中 使 用 该 协议 时 ， 必 须 使 用 标准 网 络 功能 (如 多 个 硬件 组 件 的 链 路 聚合 ) ， 以 便 在 发 生 接口 或 交换 机 故障 
时 提供 保护 。 然 而 ， 支 持 NFS 版 本 4.1 的 vSphere 6 通过 会 话 集群 提供 了 故障 切换 机 制 (第 3 章 将 详细 讨论 此 主题 ) 。 


2.1.11 基于 存储 阵列 的 灾难 恢复 和 备份 


谈 到 存储 阵列 的 灾难 恢复 和 备份 机 制 及 其 保存 的 数据 ， 主 要 有 两 大 类 : 复制 和 备份 。 数 据 复制 提供 了 灾难 恢复 功能 ， 还 能 确 
保 恢 复 站 点 或 恢复 存储 系统 上 的 数据 快速 上 线 。 


复制 产品 ， 无 论 是 存储 供应 商 原 生 的 ， 还 是 外 部 提供 的 解决 方案 ， 都 会 影响 网 络 设计 ， 也 可 能 影响 用 于 主机 和 存储 |/O 架 构 
连接 的 存储 协议 的 选择 。 关 键 设计 因素 包括 : 复制 解决 方案 是 否 支持 异 构 人 存储 环境 ， 以 及 是 否 为 供应 商 特定 的 解决 方案 ， 即 只 能 
从 该 供应 商 处 购买 所 有 存储 ? 此外， 进行 灾难 恢复 时 ， 如 何 激 活 恢复 站 点 ? 例如 ， 灾 难 恢复 解决 方案 是 否 与 VMware Site 
Recovery Manager 和 NSX 集 成 ”虚拟 化 层 是 否 人 存在 跨 站 点 集成 ， 例 如 在 城 域 集群 (metro cluster) 设计 里 ? 此 外 ， 是 否 存 在 


(RTO) ”所 有 这 些 及 更 多 问题 都 需要 在 设计 发 现 和 需求 收集 阶段 予以 解决 。 


通过 备份 能 够 使 用 备份 基础 架构 恢复 磁盘 或 磁带 中 丢失 的 数据 。 虽 然 将 数据 备份 到 本 地 系统 速度 更 快 ， 但 是 如 果 主 站 点 出 现 
故障 ， 除 了 将 数据 还 原 到 恢复 站 点 之 外 ， 此 方法 无 法 提供 其 他 任何 优势 。 而 一 个 可 备份 本 地 数据 并 将 其 复制 到 恢复 站 点 的 系统 ， 
有 助 于 本 地 数据 恢复 和 灾难 恢复 ， 它 提供 了 一 个 解决 方案 ， 可 以 应 对 多 种 挑战 。 然 而 ， 将 数据 复制 到 远程 站 点 可 能 需要 大 量 的 时 
间 ， 并 且 可 能 需要 长 时 间 使 用 WAN 链 路 。 


在 设计 灾难 恢复 解决 方案 时 ， 与 复制 相关 的 最 关键 的 一 点 是 站 点 间 的 带宽 需求 和 连接 延迟 。 使 用 同步 复制 可 提供 数据 的 完整 
镜像 副本 ， 因 为 同步 复制 要 求 将 数据 同时 写 入 两 个 存储 设备 。 因 为 两 个 站 点 的 数据 始终 完全 相同 ， 所 以 此 设计 的 RPO 为 零 。 然 
而 ， 同 步 复制 需要 充足 的 带宽 进行 实时 的 数据 传输 ， 要 求 站 点 之 间 具 有 极 低 的 延迟 ， 基 本 上 将 两 个 存储 设备 均 视 为 本 地 设备 ， 只 


有 本 地 和 远程 MO 都 完成 后 才 返 回 对 写 入 应 用 或 操作 系统 的 操作 的 确认 。 因 此 ， 如 果 两 个 位 置 之 间 的 可 用 网 络 连接 级 别 不 满足 应 
用 的 要 求 ， 性 能 将 会 降低 ， 甚 至 复制 会 完全 失败 。 因 此 ， 通 常 只 有 城 域 或 园区 设计 才 支 持 同 步 复制 解决 方案 。 


对 于 异步 复制 ， 带 宽 和 延迟 要 求 并 不 严格 ， 这 是 因为 数据 不 是 同时 或 实时 写 入 的 。 但 是 ， 在 设计 时 必须 保证 带宽 和 延迟 水 平 
能 够 支持 预定 义 的 RPO。 如 果 可 用 连接 无 法 满足 设计 要 求 ， 则 可 以 考虑 在 设计 中 使 用 WAN 加 速 。 这 些 解决 方案 可 以 用 于 增加 
WAN 互 连 间 的 吞吐 量 并 降低 延迟 。WAN 加 速 产品 可 以 显著 提高 WAN 连 接 的 吞吐 量 ， 非 常 适合 于 顺序 读 写 功能 ， 如 异地 备份 复 
制 或 站 点 间 大 量 数 据 传输 。 


需要 通过 WAN 互 连 复 制 到 第 2 个 数据 中 心 的 数据 变更 量 ， 直 接 影 响 传 输 的 数据 量 。 如 果 需 要 在 恢复 站 点 保存 数据 的 完整 镜 
像 副本 ， 则 应 设计 一 个 配置 相同 的 存储 系统 。 这 样 不 仅 能 在 发 生 严 难 时 提供 相同 的 性 能 ， 还 能 在 正常 的 复制 操作 中 提供 所 需 的 性 
能 ， 这 需要 在 恢复 位 置 使 用 留 有 一 定 开销 的 存储 阵列 。 如 果 只 需 将 环境 的 一 部 分 复制 到 恢复 站 点 ， 如 仪 复制 第 1 层 应 用 ， 或 者 客 
户 允 许 在 恢复 情形 下 进行 故障 切换 时 出 现 性 能 降级 ， 则 可 以 使 用 同一 或 不 同 存储 供应 商 的 小 型 存储 系统 或 低 成 本 产品 来 减少 资本 
支出 。 但 是 ， 在 恢复 站 点 引入 不 同 的 存储 系统 会 产生 新 的 要 求 ， 即 需要 一 种 外 部 非 供应 商 复制 产品 来 在 一 个 异 构 存储 环境 中 进行 
复制 。 


基于 存储 设备 的 灾难 恢复 解决 方案 的 其 他 关键 设计 注意 事项 还 包括 : 

" 灾难 恢复 是 如 何 激活 的 ? 是 手动 还 是 自动 使 网 上 的 副本 数据 和 相应 vSphere 主 机 上 线 ? 

* 设计 中 是 否 使 用 了 VMware Site Recovery Managet (SRM) 或 第 三 方 产品 来 自动 化 虚拟 化 层 和 存储 阵列 的 恢复 过 程 ? 
. 环境 故障 切换 后 ， 如 何 进行 故障 恢复 ? 

.部署 环境 后 多 久 测 试 一 次 ? 


最 后 ， 在 评估 某 个 设计 的 备份 解决 方案 时 ， 去 重 很 重要 。 即 使 只 是 简单 地 考虑 客户 操作 系统 内 的 元 余 重 复数 据 量 ， 基 于 去 重 
的 解决 方案 也 很 有 必要 。 


2.1.12 ”传统 存储 环境 中 的 存储 阵列 快照 和 克隆 


在 传统 存储 基础 架构 中 使 用 快照 和 克隆 能 够 快速 地 将 数据 恢复 到 之 前 的 时 间 点 。 尽 管 该 机 制 无 法 提供 端 到 端的 灾难 恢复 解决 
方案 ， 但 它 可 以 有 效 地 应 对 数据 丢失 或 数据 损坏 ， 尤 其 是 在 动态 变化 或 瞬 态 环境 中 。 


然而 ， 在 vSphere 基 础 架构 中 ， 在 环境 设计 中 使 用 快照 和 克隆 策略 时 必须 小 心 。 使 用 基于 块 的 传统 存储 设备 时 ， 在 各 个 LUN 
级 别 生 成 快照 和 克隆 ， 因 此 也 会 在 LUN 级 别 还 原 或 恢复 。 通 常情 况 下 ， 一 个 LUN 由 多 个 虚拟 机 使 用 ， 因 此 ， 很 容易 在 恢复 操作 
过 程 中 不 小 心 回 滚 多 个 虚拟 机 。 例 如 ， 在 传统 存储 环境 中 ， 数 据 库 管理 员 不 小 心 从 数据 库 表 中 删除 了 重要 数据 ， 当 人 存储 管理 员 使 
用 该 LUN 的 快照 恢复 到 以 前 的 版 本 时 ， 将 会 恢复 该 数据 存储 上 的 所 有 虚拟 机 和 数据 ， 而 不 仅 仪 是 数据 库 管理 员 缺 失 的 表 ， 这 会 
导致 和 天 键 业 务 文件 丢 失 。 在 vSphere 环 境 中 ， 这 种 情况 会 进一步 加 剧 ， 因 为 虚拟 机 使 用 的 磁盘 分 布 在 多 个 数据 存储 上 。 因 此 , 在 
具体 操作 上 ， 快 照 和 克隆 应 该 只 用 于 特定 用 例 ， 如 开发 环境 或 瞬时 负载 ， 这 需要 一 定 的 灵活 性 才能 将 数据 迅速 恢复 到 之 前 的 某 个 
时 间 点 ， 而 不 增加 关键 业务 信息 丢失 的 风险 ， 如 图 2-20 所 示 。 





图 2-20 ”快照 和 克隆 


在 基于 文件 的 环境 中 ， 除 了 前 面 描述 的 完整 文件 系统 恢复 外 ， 通 常 还 有 一 个 机 制 可 从 快照 恢复 各 个 文件 。 但 是 ， 如 果 数 据 必 
须 从 多 个 增 量 快照 恢复 ， 然 后 重新 组 合成 最 终 状 态 ， 那 么 使 用 这 个 机 制 可 能 很 复杂 。 


如 果 在 设计 中 要 进行 存储 级 别 快照 或 克隆 ， 则 必须 实施 运 维 流程 ， 以 确保 在 恢复 过 程 不 会 在 无 意 中 履 盖 和 销毁 宝贵 的 业务 数 
据 。 大 多 数 情况 下 ， 基 于 vSphere 的 快照 比较 好 ， 可 以 将 各 个 虚拟 机 恢复 到 以 前 的 状态 。 这 种 方法 可 以 防止 意外 的 数据 丢失 风 
险 ， 基 于 阵列 的 快照 通常 存在 着 风险 。 


第 8 章 将 介绍 下 一 代 快 照 技 术 如 何 与 vSphere Virtual Volumes 结 合 使 用 ， 以 减少 基于 LUN 的 传统 快照 和 克隆 机 制 所 带 来 的 
风险 。 


2.1.13”vSphere 城 域 存储 集群 


vSphere 城 域 存储 集群 (vSphere Metro Storage Cluster，vMSC) 设计 选项 能 够 跨 两 个 地 理 位 置 延伸 vSphere 集 群 。 通 
过 使 用 此 类 型 的 设计 ， 组 织 可 以 在 两 个 数据 中 心 之 间 实 现 负载 均衡 以 及 无 中 断 vM otion 操 作 。 


vMSC 能 够 为 IT 组 织 和 服务 提供 商 提供 诸多 优势 ， 增 强 了 单 点 vSphere HA 集群 的 功能 ， 分 散在 不 同 地 理 位 置 的 站 点 有 助 于 
进行 灾难 恢复 ， 还 可 以 避免 发 生 灾 难 。 在 延伸 集群 设计 中 ， 组 织 可 以 在 两 个 数据 中 心 位 置 之 间 实时 迁移 虚拟 机 ， 可 实现 灾难 预防 
或 主动 负载 均衡 。 此 类 灾难 预防 设计 通常 适用 于 不 能 容忍 停机 时 间 的 环境 。 但 是 ， 它 不 应 用 来 代替 上 T 组 织 的 灾难 恢复 设计 ， 而 是 
相互 结合 来 通过 多 层次 策略 实现 业务 连续 性 。 


vMSC 设 计 要 求 两 个 数据 中 心 之 间 使 用 高 带宽 低 延 迟 的 连接 ， 如 图 2-21 所 示 。 通 常情 况 下 ， 两 个 站 点 之 间 支 持 的 最 大 网 络 延 
迟 为 往返 时 间 (Round Trip Time，RTT) 为 10 毫 秒 ， 大 多 数 情况 下 ， 可 部 署 延 伸 集 群 的 两 个 站 点 间 的 地 理 距离 限制 为 100 公 里 


以 内 。vMSC 支 持 光纤 通道 、iSCSI、NFS 和 FCoE (以 太 网 光纤 通道 ) 协议 ， 并 要 求 使 用 延伸 存储 解决 方案 ， 如 EMC VPLEX 或 
NetApp MetroCluster 系 统 。vMSC 还 要 求 跨 数 据 中 心 实现 低 延 迟 高 带宽 网 络 连 接 ， 以 便 在 两 个 数据 中 心 位 置 之 间 提供 所 需 的 第 
2 层 扩展 技术 。 


第 5 章 中 会 再 次 介绍 延伸 集群 ， 其 中 将 重点 说 明 如 何 通过 启用 了 Virtual SAN 的 分 布 式 vSphere 集 群 提供 此 技术 。 


2.1.14 ”全 闪存 磁盘 阵列 


全 闪存 存储 阵列 可 提供 100% 国 态 存 储 设备 (SSD) ， 而 不 是 机 械 硬盘 驱动 器 或 固态 存储 与 机 械 盘 相 结合 的 混合 阵列 ， 以 便 
为 vSphere 负 载 提供 高 速 、 低 延迟 的 存储 。 


固态 驱动 器 或 SS5D 是 没有 运动 部 件 的 存储 设备 ， 由 可 擦 除 或 可 编程 的 非 易 失 性 内 存 构成 ， 即 以 单元 为 单位 进行 擦 除 或 编程 。 
非 易 失 性 内 存 是 一 种 可 擦 除 、 可 编程 的 只 读 内 存 (EPROM) ， 之 所 以 如 此 命名 ， 是 因为 只 需 一 个 操作 即 可 完全 擦 除 内 存单 元 。 
通常 情况 下 ， 全 闪存 阵列 与 SSD 之 间 的 数据 传输 速度 明显 地 快 于 机 械 盘 ， 因 此 ， 全 闪存 阵列 是 高 性 能 低 延 迟 负载 的 理想 选择 。 


即使 企业 级 闪存 驱动 器 比 机 械 盘 更 昂贵 ， 随 着 多 层 单元 (Multi-Level Cell，MLC) 技术 的 发 展 ， 越 来 越 多 的 数据 中 心 将 能 
够 使 用 内 存 驱动 器 。MLC 闪 存 比 单 层 单元 (Single-Level Cell，SLC) 闪存 慢 ， 且 不 够 耐用 ， 但 是 SSD 制 造 商 现 在 开发 的 软件 提 
高 了 MLC 的 寿命 ， 一 般 企 业 应 用 负载 已 经 能 够 接受 MLC 了 。 但 是 ， 对 于 需要 高 度 耐 久 性 上 且 要 实现 密集 MO 负载 的 应 用 而 言 ，SLC 
闪存 仍然 是 最 佳 设计 选择 。 第 4 章 会 详细 介绍 ， 其 中 会 说 明基 于 闪存 的 存储 与 VMware Virtual SAN 设 计 之 间 的 关系 。 
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图 2-21 vSphere 城 域 存储 集群 设计 


2.2 VvSphere 人 存储 技术 


vSphere 平 台 为 vSphere 和 存储 管理 员 带 来 了 多 种 多 样 的 存储 组 件 技术 。 重 要 的 是 ，vSphere 和 存储 运 维 团 队 需 要 知道 该 平 
台 提 供 了 哪些 功能 ， 以 及 它们 将 如 何 与 传统 存储 解决 方案 /下 一 代 存 储 解 决 方案 进行 交互 。 本 章 后 面部 分 将 讨论 vSphere 存 储 技 
术 以 及 这 些 组 件 如 何 与 存储 层 交 互 操作 。 随 着 你 阅读 本 书后 面 的 内 容 ， 你 会 注意 到 一 个 总 的 趋势 一 一 无 论 是 VMware 还 是 其 他 
存储 供应 商都 趋向 于 更 简化 的 操作 ，vSphere 层 和 存储 硬件 层 之 间 的 交互 与 通信 比 以 前 直接 得 多 。 但 从 传统 存储 模型 角度 看 ,我 
们 在 虚拟 存储 和 物理 存储 结构 之 间 进 行 了 严格 区 分 ， 如 图 2-22 所 示 ， 它 位 于 中 偏 下 位 置 。 








LUN 





图 2-22 ”确定 vSphere 层 和 存储 层 之 间 的 分 界线 


2.2.1 虚拟 磁盘 
部 署 新 的 虚拟 机 时 ，vSphere 平 台 组 件 会 自动 创建 一 组 与 新 虚拟 机 关联 的 特定 文件 。 然 后 ， 虚 拟 机 会 以 这 组 文件 的 形式 存储 
在 置 备 过 程 中 主机 创建 的 目录 中 。 


在 表 2-17 中 ， 对 存储 在 新 创建 目录 中 以 构成 该 虚拟 机 的 各 个 组 件 文件 进行 了 说 明 。 但 请 注意 ， 列 出 的 某 些 文件 必须 在 发 生 
其 他 事件 (如 打开 电源 或 生成 快照 ) 后 才 会 创建 。 


表 2-17 虚拟 机 组 件 文 件 
文 件 名 说 明 


vmx 文件 提供 虚拟 机 配置 。 这 是 主要 的 配置 文件 ， 用 于 存储 为 虚拟 机 选择 


<VID-Danle>.VIDX 


的 所 有 设置 
vmdk 是 ASC[T (American Standard Code for Information Interchange， 美 国 
<vm-name>.vmdk 信息 交换 标准 侍 代 码 ) 格式 的 文件 ， 用 于 存储 虚拟 机 硬盘 驱动 器 的 内 容 。 可 能 会 
有 一 个 或 多 个 虚拟 磁盘 文件 ， 具 体 取决 于 虚拟 机 的 配置 
<vm-name> flat.vmdk -flat.vmdk 是 一 个 预 分 配 的 磁盘 文件 ， 其 中 包含 虚拟 机 的 数据 


vswp 是 交换 文件 该 文件 在 打开 虚拟 机 电源 时 创建 ， 在 关闭 电源 时 被 删 
除 。 此 文件 的 大 小 等 于 已 配置 的 内 存 减 去 任何 虚拟 机 预 留 空间 


<vm-name> vra nvra 文件 是 非 易 失 性 RAM， 用 于 存储 虚拟 机 的 BIOS 信息 


<vimn-name~>.vswp 


<vm-name>.vmem vmem 文件 是 虚拟 机 内 存 映射 文件 


vmss 是 虚拟 机 挂 起 状态 文件 ,在 虚拟 机 被 挂 起 时 创建 ， 用 于 存储 被 挂 起 虚 
拟 机 的 当前 状态 


<vm-name>.vinss 


. vmsd 是 用 于 集中 存储 与 快照 相关 的 信息 及 元 数据 的 文件 ， 该 文件 在 执行 快 
<vm-name>.vmsd 3 
照 操 作 ee 
<vm-name> snapshot.vmsn vmsn 是 快照 状态 文件 ， 用 于 存储 生成 快照 时 虚拟 机 的 当前 运行 状态 
vmware tone wmwaredl oc .log 文件 是 虚 we 机 的 有志 文件 。 该 文件 在 故障 排除 时 非常 有 用 ， 它 始终 与 相 
En -| 美 虚拟 机 的 配置 (.vmx) 文件 存 储 在 一 起 


虚拟 磁盘 (在 vSphere 中 以 文件 扩展 名 .vmdk 表 示 ) 是 一 种 磁盘 映像 文件 格式 ， 用 于 存放 虚拟 机 硬盘 驱动 器 的 完整 内 容 。 虚 
拟 磁盘 可 表示 并 复 现 物理 硬盘 ， 包 含 其 中 的 所 有 数据 和 结构 元 素 ， 仿 佛 就 是 位 于 物理 计算 机 上 的 物理 磁盘 。 虚 拟 磁盘 可 以 存储 在 
vSphere 主 机 可 以 访问 的 任意 位 置 ， 并 可 在 虚拟 机 的 操作 系统 中 隐藏 物理 存储 层 。 这 样 虚拟 机 将 可 以 运行 各 种 操作 系统 ， 包 括 未 
经 SAN (Storage Area Network， 人 存储 区 域 网 络 ) 认证 的 操作 系统 。 


从 存储 角度 讲 ，VM DK 是 最 重要 的 文件 ， 因 为 它们 为 虚拟 机 提供 虚拟 磁盘 。 在 vSphere 5 中 ，VMDK 人 允许 的 最 大 大 小 是 
2TB， 准 确 地 说 是 2TB 减 去 512 字 节 。 但 在 vSphere 5.5 中 ，VMware 引 入 了 新 的 绝对 最 大 限制 值 ，VMFS5 可 支持 最 大 62TB 的 
VMDK，NFS 上 的 限制 取决 于 底层 文件 系统 。 


然而 ， 在 现实 中 ， 虚 拟 磁盘 由 两 个 文件 构成 : 一 个 是 扩展 名 为 vrmdk 的 描述 符 文件 ， 提 供 元 数据 和 指向 第 2 个 文件 的 链接 ; 
另 一 个 是 扩展 名 为 -flat.vmdk 的 文件 ， 其 中 包含 数据 。 








部 署 虚拟 机 时 ， 管 理 员 可 以 从 3 种 磁盘 类 型 中 选择 : 厚 置 备 延迟 置 零 、 厚 置 备 预 置 零 和 精简 置 备 。 下 面 将 介绍 每 种 类 型 的 优 








1. 厚 置 备 延迟 置 零 


在 厚 置 备 延迟 置 零 (Lazy Zeroed Thick，LZT) 格式 类 型 中 ， 数 据 人 存储 上 VMDK 的 大 小 与 你 在 置 备 操作 期 间 创建 的 虚拟 磁 
盘 的 大 小 一 样 。 但 在 该 文件 中 ， 空 间 不 会 预先 置 零 。 例 如 ， 如 果 你 创建 了 一 个 2TB 的 虚拟 磁盘 ， 并 在 其 中 人 存放 了 100GB 的 数 
据 ，VMDK 将 会 显示 数据 存储 上 的 完整 2TB， 但 磁盘 上 只 包含 100GB 数 据 。 在 客户 机 操作 系统 上 发 生 MO 时 ，VMkernel 会 在 提 
交 客 户 机 IO 的 前 一 秒 对 所 需 的 空间 置 零 ， 但 VMDK 文 件 大 小 不 会 增加 ， 因 为 已 预先 分 配 全 部 2TB 空 间 。 表 2-18 列 出 了 厚 置 备 延 


表 2-18 厚 置 备 延 迟 置 老 的 优点 和 缺点 


优 点 典型 用 例 
使 用 在 置 备 时 已 分 配给 VMDK 的 | 对 于 向 新 块 的 每 个 写 操作 ， 都 会 | ”对 于 写 IO 不 多 的 应 用 或 者 在 写 
空间 进行 快速 部 署 ， 因 此 在 创建 这 | 在 写 人 数据 之 前 将 该 块 置 零 。 因 此 , | 延迟 非常 低 的 情况 下 ， 这 都 不 是 问 
种 格式 的 虚拟 磁盘 之 后 ， 数 据 存储 | 每 个 新 的 写 操作 都 会 存在 少量 开销 “| 题 。 此 外 ， 预 先 分 配 好 数据 存储 容 
将 显示 该 空间 已 不 再 可 用 最 很 重要 





2. 厚 置 备 预 置 零 


在 厚 置 备 预 置 零 (Eager Zeroed Thick，EZT) 格式 类 型 提供 的 数据 存储 上 ，VMDK 文 件 的 大 小 与 你 在 置 备 操作 期 间 创建 的 
虚拟 磁盘 的 总 大 小 一 致 。 这 种 格式 类 型 的 虚拟 磁盘 文件 会 预先 置 零 。 例 如 ， 如 果 你 创建 了 一 个 2TB 的 虚拟 磁盘 ， 并 在 其 中 人 存放 了 
100GB 的 数据 ，VMDK 将 会 显示 数据 存储 上 的 2TB， 但 其 中 只 包含 100GB 数 据 ， 另 有 1900GB 的 零 数 据 。 当 客户 机 操作 系统 上 发 
生 I/O 时 ，VMkernel 不 需要 在 提交 1/O 前 将 块 置 零 。 其 结果 是 ，1/O 延 迟 减 少 ， 正 常 运行 期 间 后 端 存 储 I/O 更 少 。 不 过 ， 值 得 注意 


的 是 ， 在 创建 虚拟 机 期 间 ， 会 预先 发 生 更 多 的 后 端 仓储 IO 操作 。 然 而 ， 通 过 使 用 兼容 硬件 可 以 加 速 这 个 过 程 ， 并 可 利用 块 清 零 
这 一 VAAI 基 本 类 型 特性 将 负载 分 流 到 阵列 。 表 2-19 列 出 了 厚 置 备 预 置 零 的 优点 和 缺点 。 


表 2-19 厚 置 备 预 置 零 的 优点 和 缺点 


典型 用 例 


将 VMDK 置 零 后 ， 用 于 处 理 由 于 置 备 期 间 会 对 虚拟 磁盘 进行 完整 置 延迟 敏感 型 应 用 和 写 入 密集 型 
去 重 的 一 些 存 储 设备 的 工作 效 | 零 ， 因 此 需要 花费 更 长 时 间 来 创建 虚拟 机 。 | 应 用 
率 会 更 高 ， 因 为 重复 数据 可 以 | 整个 VMDK 的 容量 将 提前 用 零 填 满 ; 因此 ， 
更 彻 压 地 去 除 精简 置 备 LUN 上 的 整个 空间 都 需要 预 分 配 





3. 精 简 置 备 磁盘 


该 格式 类 型 可 确保 数据 存储 上 VMDK 文 件 的 大 小 与 虚拟 机 的 客户 机 操作 系统 自身 内 已 使 用 的 空间 一 致 。 例 如 ， 如 果 你 创建 
了 一 个 2TB 的 虚拟 磁盘 ， 并 在 虚拟 机 上 放置 了 100GB 数 据 ， 则 VM DK 文件 的 大 小 将 是 100GB。 虚 拟 磁 盘 的 大 小 只 会 在 客户 机 操作 
系统 内 发 生 I/O 时 才 会 增加 ，VMkernel 会 在 提交 客户 机 I/O 的 前 一 秒 对 所 需 的 空间 置 零 。 表 2-20 列 出 了 精简 置 备 磁盘 的 优点 和 缺 


No 





表 2-20 精简 置 备 磁 瘟 的 优点 和 缺点 


典型 用 例 
快速 置 备 首次 写 人 时 会 动态 增加 因 块 置 零 而 产生 的 写 人 人 延迟。 因此, 其 | 写 和 人 VO 较 低 的 应 用 


写 性 能 不 如 其 他 磁盘 类 型 





如 果 阵 列 支 持 精简 置 备 ， 则 通常 可 在 大 多 数 操作 模型 中 使 用 阵列 级 别 的 精简 置 备 获得 更 高 的 效率 。 但 是 ， 如 果 在 存储 级 别 使 
用 精简 置 备 ， 你 会 希望 避免 使 用 预 置 零 ， 因 为 这 完全 违背 存储 阵列 上 精简 置 备 的 目的 。 


2.2.2 ”虚拟 机 存储 控制 器 (vSCSI 适 配器 ) 


部 署 虚 拟 机 时 ， 会 创建 一 个 存储 控制 器 适配器 来 为 客户 机 操作 系统 提供 连接 、 管 理 来 自 虚 拟 磁盘 或 针对 虚拟 磁盘 的 MO 请 
求 。 置 备 新 虚拟 机 时 ， 你 需要 为 新 虚拟 机 选择 客户 机 操作 系统 。 此 时 ，vCenter Server 将 根据 在 该 特定 操作 系统 发 行 版 中 提供 的 
驱动 程序 自动 选择 要 添加 的 存储 控制 器 。 用 于 每 个 操作 系统 的 缺 省 控制 器 类 型 都 针对 典型 虚拟 负载 使 用 场景 进行 了 优化 ， 可 以 达 


到 最 佳 性 能 。 


部 署 虚拟 机 之 后 ， 可 以 并 建议 针对 特定 的 负载 和 配置 添加 额外 的 控制 器 或 更 改 控制 器 类 型 。 一 个 虚拟 机 最 多 可 以 使 用 4 个 
SCSI 控 制 器 和 4 个 SATA 控 制 器 ， 缺 省 SCSI 或 SATA 控 制 器 编号 为 0。 置 备 虚 拟 机 时 ， 缺 省 硬盘 将 分 配给 总 线 节点 (0: 0) 上 的 缺 
省 控制 器 0。 如 果 vsphere 管 理 员 向 虚拟 机 添加 了 存储 控制 器 ， 它 们 将 按 顺序 依次 编号 为 1、2 和 3。 


设计 虚拟 机 时 ， 为 了 达到 最 佳 性 能 ， 很 重要 的 一 点 就 是 了 解 控制 器 的 特性 、 限 制 和 控制 器 类 型 的 兼容 性 ， 以 便 清 楚 地 知道 添 
加 或 更 改 控制 器 设备 可 能 会 带 来 什么 样 的 影响 。 如 果 做 不 到 心中 有 数 ， 则 可 能 存在 出 现 引 导 问 题 的 风险 ， 并 会 无 意 中 在 存储 控制 
器 队列 方面 造成 瓶颈 或 者 导致 其 他 不 足 。 


ESXi 主 机 





存储 控制 器 0 上 ”存储 控制 器 1 








图 2-23 vSphere 存 储 控制 器 堆栈 


在 图 2-23 的 设计 中 ， 虚 拟 机 控制 器 (有 时 也 称 为 vSCSI 适 配器 ) 以 端 到 端的 方式 集成 到 了 存储 堆栈 中 。 


不 同 的 虚拟 机 会 使 用 不 同类 型 的 SCSI 控 制 器 作为 存储 控制 器 ， 它 们 分 别针 对 不 同类 型 的 负载 和 用 例 进 行 了 优化 。 基 本 
上 ，vSphere 管 理 员 有 5 种 存储 控制 器 选项 : 


. BusLogic 

" LSI Logic Parallel (以 前 称 为 LSI Logic) 
* LSI Logic SAS 

VMware Paravirtual (也 称 为 PVSCSI) 

+ AHCI SATA 


BusLogic 适 配器 类 型 是 VMware 平台 上 最 早 模拟 的 vSCSI 控 制 器 之 一 。Microsoft Windows 的 早期 版 本 缺 省 支持 此 驱动 程 
序 ， 并 将 它 谋 入 到 发 行 版 中 以 方便 安装 。 但 是 ， 用 于 此 适配器 类 型 的 Windows 驱 动 程序 支持 的 最 大 队列 深度 只 有 1。 因 此 ， 经 验 
丰富 的 vSphere 管 理 员 经 常 手动 用 LSI Logic 驱 动 程序 来 代 蔡 BusLogic 适 配器 。 你 可 以 认为 此 适配器 类 型 现 已 停 用 ， 除 非 IT 组 织 
仍 在 运行 Microsoft Windows 2000。 


LSI Logic Parallel (以 前 称 为 LSI Logic) 是 VMware 平台 上 早期 模拟 的 另 一 类 vSCSI 控 制 器 。 以 前 的 大 多 数 客户 机 操作 系统 
都 包含 所 支持 队列 深度 为 32 的 嵌入 式 驱 动 程序 ， 由 于 此 原因 ，LSI Logic Parallel 很 快 成 为 了 用 户 普遍 的 选择 ， 甚 至 成 为 大 多 数 
vSphere 管 理 员 缺 省 使 用 的 选项 。 在 现代 的 大 多 数 用 例 中 ， 此 适配器 类 型 应 该 也 已 停 用 。 


LSI Logic SAs 适 配器 类 型 是 模拟 并 行 驱 动 程序 的 下 一 代 方 案 ， 支 持 面向 未 来 的 新 标准 。 在 Microsoft Windows Server 
2008 发 布 后 ， 这 种 适配器 类 型 日 益 流行 起 来 ， 因 为 它 是 当时 新 兴 集 群 技术 所 需要 的 类 型 ， 不 过 今天 它 也 仍 不 失 为 一 些 常规 负载 


类 型 最 常见 的 选择 。 


VMware Paravirtual (也 称 为 PVSCSI) 是 一 个 虚拟 化 的 SCSI 控 制 器 ， 它 能 感知 虚拟 化 ， 一 开始 就 可 以 以 最 小 的 主机 CPU 处 
理 成 本 来 支持 高 吞吐 量 的 负载 。 无 论 是 在 低 、 中 还 是 高 MO 部 署 中 ，PVSCSI 适 配器 现在 都 是 最 高 效 的 驱动 程序 。 以 往 在 低 M/O 虚 
拟 机 中 使 用 此 适配器 类 型 时 出 现 的 问题 在 最 新 的 vSphere 版 本 中 未 曾 出 现 。 


事实 上 ， 从 总 体 性 能 来 看 ，Paravirtual 和 LSI Logic SAS 适 配器 不 相 上 下 。 但 是 ，Paravirtual 类 型 在 所 需 主机 计算 CPU 周 期 
方面 更 高 效 ， 这 有 助 于 增加 每 秒 处 理 的 I/O 操 作 数 。 因 此 ， 在 MO 密集 型 存储 负载 设计 中 ， 这 种 控制 器 类 型 可 确保 减少 主机 服务 
器 上 的 总 体 CPU 周 期 数 。 


最 后 一 个 是 AHCI SATA 适 配器 ， 这 是 vSphere 5.5 上 新 推出 的 一 款 存 储 控制 器 ， 需 要 使 用 Virtual Hardware 10。 该 控制 器 
类 型 可 以 将 大 存储 容量 连接 到 虚拟 机 ， 但 它 处 理 大 量 /O 的 效率 不 及 Paravirtual 或 Parallel| SAS 控 制 器 。 因 此 ， 不 建议 对 性 能 敏 
感 型 负载 使 用 该 适配器 类 型 。 


正如 前 面 所 述 ， 在 MO 密集 型 虚拟 机 上 ，VvSphere 管 理 员 很 常见 的 做 法 是 使 用 多 个 虚拟 存储 控制 器 ， 以 确保 虚拟 存储 控制 器 
不 会 成 为 瓶 巴 ， 如 图 2-24 所 示 。 在 该 示例 中 ，Oracle 的 负载 分 布 在 4 个 PVSCSI 适 配器 上 ， 以 确保 在 存储 控制 器 和 磁盘 设备 上 可 
以 获得 足够 的 VO。 


2.2.3 ”数据 仓储 


数据 存储 (datastore) 是 一 个 映射 到 vsphere 主 机 的 卷 ， 采 用 虚拟 机 文件 系统 (VMFS) 或 网 络 文件 系统 (NFS) 格式 进 


行 格式 化 。 在 非 HCI ( 超 融 合 基础 架构 ) 中 ， 共 享 数据 存储 通常 位 于 物理 存储 设备 系统 上 。 


Oracle 数 据 库 磁盘 


Oracle 重 做 日 志 人 磁盘 Oracle 存 档 日 志 磁 盘 
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图 2-24 多 存储 控制 器 虚拟 机 设计 示例 空 制 器 分 布 负 载 


术语 LUN、 卷 (volume) 和 数据 存储 (datastore) 经 常 容 易 让 人 混淆 。 为 避免 这 种 混淆 ， 我 们 先 对 它们 进行 一 些 介绍 。 


LUN 表 示 Logical Unit Number， 意 思 是 钦 辑 单元 号 。 也 就 是 说 ， 存 储 管 理 员 已 从 存储 阵列 上 截取 了 一 块 逻 辑 空间 。 为 了 便 
于 识别 ， 存 储 管理 员 会 为 它 分 配 一 个 号 码 ， 也 就 是 LUN ID。 在 如 图 2-25 所 示 的 示例 中 ，LUN ID 是 10， 它 有 2000GB 空 间 。 你 可 
以 为 存储 阵列 的 整个 空间 创建 一 个 LUN， 也 可 以 为 磁盘 池 的 一 部 分 可 用 空间 创建 一 个 LUN。 例 如 ， 如 本 章 前 面 所 述 ， 一 个 磁盘 
池 创 建 了 多 个 LUN ， 这 是 非常 典型 的 做 法 。 


应 用 


操作 系 瑟 
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图 2-25” 卷 、 数 据 存储 和 LUN 


当 LUN 了 映射 到 vSphere 主 机 时 ， 它 可 以 称 为 卷 。 将 卷 格式 化 为 文件 系统 (VMFS 或 NFS) 后 ， 它 又 可 以 称 为 数据 存储 。 


数据 存储 是 一 种 逻辑 容器 ， 相 当 于 文件 系统 ， 它 屏蔽 了 每 个 存储 设备 的 特性 ， 因 此 可 以 通过 一 致 的 模型 来 存储 虚拟 机 文件 。 
VMware 强 烈 建议 客户 在 VMFS 数 据 存储 和 LUN 之 间 建 立 一 对 一 的 映射 。 


至 于 数据 存储 的 大 小 ， 没 有 唯一 正确 的 答案 。 架 构 师 应 根据 以 下 关键 设计 因素 提供 合适 的 建议 : 
“ 设计 每 个 LUN 时 ， 确 保 为 要 使 用 该 LUN 的 虚拟 机 运行 的 应 用 提供 正确 的 RAID 级 别 和 读 / 写 特性 。 
" VMware 强 烈 建议 每 个 LUN 都 只 包含 一 个 VMFS 数 据 存 储 。 


* 如 果 多 个 虚拟 机 访问 同一 个 数据 存储 (这 是 最 常见 的 做 法 ) ， 请 使 用 磁盘 共享 和 存储 I/ 〇 控制 (Storage I/O 
Control，SIOC) ， 并 根据 服务 级 别 要 求 来 确定 虚拟 机 的 优先 级 。 


目前 ，vSphere 可 支持 高 达 64TB 的 数据 存储 ， 表 2-21 进 一 步 阐 述 了 纵向 扩展 和 横向 扩展 方法 以 及 应 如 何 确定 数据 存储 的 大 


小 。 


表 2-21 确定 LUN 的 大 小 


LUN 数量 多 、 容 量 小 (横向 扩展 ) 


由 于 每 个 卷 上 的 冲突 较 少 ， 因 此 性 能 得 以 提高 

不 同 的 应 用 通常 需要 不 同 的 RAID 读 / 写 特性 

由 于 未 实际 置 备 在 存储 系统 上 ， 因 此 可 减少 存储 空间 浪费 

为 每 个 LUN 配置 的 多 路 径 策略 和 磁盘 共享 增强 了 灵活 性 

Microsoft 集群 服务 需要 物理 RDM ( 裸 设备 映射 )， 其 中 每 个 
集群 磁盘 资源 都 配置 为 自己 的 LUN 


LUN 数量 少 、 容 量 大 (纵向 扩展 ) 


更 灵活 。 无 需 存 储 管理 员 置 备 更 大 的 空间 ， 
即 可 创建 新 的 虚拟 机 

在 需要 调整 虚拟 磁盘 的 大 小 或 执行 快照 等 操 
作 时 ， 这 种 方法 更 加 灵活 

在 VMEFS 数据 存储 较 少 的 情况 下 ， 这 种 方法 
执行 存储 操作 的 开销 会 比较 低 





vSphere 允 许 每 个 系统 使 用 多 达 256 个 VMFS 数 据 存储 ， 且 支持 最 大 64TB 的 卷 。 缺 省 情况 下 ， 每 个 系统 最 多 可 以 使 用 8 个 
NFS 数 据 存储 ， 但 通过 vSphere Web Client 内 的 高 级 配置 ， 可 以 轻松 地 将 该 数量 增加 到 256。 数 据 存储 还 可 用 于 存储 |SO 磁 盘 映 
像 、 虚 拟 机 模板 ， 甚 至 软盘 映像 。 


设计 应 该 采用 哪 种 数据 人 存储， 很 大 程度 上 取决 于 数据 中 心目 前 或 计划 使 用 的 物理 存储 系统 类 型 。vSphere 平 台 提供 了 多 种 将 
磁盘 设备 提供 给 主机 的 方法 。 通 常 ， 共 享 存储 设备 适用 于 整个 集群 ， 该 方法 会 使 用 基于 SAN 的 解决 方案 ， 如 光纤 通道 磁盘 阵 
列 、iSCSI 磁 盘 阵列 或 提供 NFS 文 件 系统 的 网 络 附加 存储 (NAS) 。 在 某 些 设计 中 ， 用 作 引 导 设 备 的 本 地 磁盘 也 可 以 提供 本 地 
SCSI 连 接 的 存储 ， 作 为 虚拟 机 的 临时 存储 或 永久 存储 。 


基于 SAN 或 NAS 的 存储 系统 会 将 虚拟 机 文件 存储 在 映射 到 vSphere 主 机 之 外 的 共享 存储 设备 的 数据 存储 上 ， 如 图 2-26 所 
示 。 在 最 常见 的 设计 方案 中 ，ESXi 主 机 可 通过 存储 网 络 与 存储 设备 进行 通信 。 在 传统 的 存储 架构 中 ， 利 用 外 部 存储 设备 有 助 于 采 
用 vSphere 可 用 性 技术 ， 如 HA 和 vMotion， 而 使 用 本 地 连接 的 存储 则 无 法 使 用 这 些 技术 。 但 是 ， 如 后 续 章 节 所 述 ， 如 果 采 用 HCI 
模型 来 部 署 架构 ， 则 此 限制 将 有 所 不 同 。 
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光纤 通道 存储 阵列 iSCSI 存储 阵列 NAS 存 储 阵列 
图 2-26 ”数据 存储 和 存储 网 络 类 型 
通过 光纤 通道 和 iSCSI SAN 提 供 的 存储 卷 的 格式 为 VMFS 文 件 系统 类 型 ， 而 基于 NAs 的 阵列 的 格式 为 NFS 文 件 系 统 ， 这 两 种 


格式 都 允许 主机 服务 器 在 其 中 创建 数据 存储 逻辑 容器 。 基 于 NFS 和 基于 SAN 的 存储 之 间 的 关键 差异 是 ， 基 于 SAN 的 存储 还 可 以 


使 用 裸 LUN， 也 称 为 裸 设备 映射 (RDM) 。 通 过 卷 的 裸 数据 映射 可 以 将 裸 LUN 直 接 提 供给 虚拟 机 。 在 本 章 后 面部 分 将 更 详细 地 
介绍 ， 此 外 ， 第 3 章 将 详细 介绍 基于 SAN 和 基于 NAs 的 存储 协议 概念 。 


可 以 共享 同一 个 数据 存储 的 虚拟 机 的 数量 取决 于 负载 /0 活动 ， 以 及 存储 系统 的 基本 功能 。 通 常情 况 下 ， 可 通过 几 个 设计 因 
素来 决定 VMFS 数 据 存储 上 的 虚拟 机 整合 水 平 。 这 些 设计 因素 包括 (但 不 限于 ) : LUN 最 大 队列 深度 、 备 份 容量 、 确 保 高 可 用 性 
的 负载 分 布 、 负 载 容量 、 负 载 VO 以 及 灾难 恢复 功能 。 如 果 客 户 没有 任何 特定 约束 或 指导 ， 一 般 原 则 是 ， 每 个 数据 仓储 对 应 10、 
15 或 20 个 负载 ， 其 中 10 表 示 存 储 需 求 较 高 的 虚拟 机 个 数 ，15 表 示 需 求 一 般 的 虚拟 机 个 数 ，20 表 示 I/O 需 求 较 低 的 负载 。 


1 数据 存储 签名 


创建 的 每 个 VMFS 数 据 存储 在 标 头 元 数据 中 都 会 分 配 有 一 个 通用 唯一 ID (UUID) ， 用 于 确定 与 该 数据 存储 相关 的 LUN。 此 
ID 必须 是 唯一 的 ; 如果 两 个 数据 存储 分 配 了 相同 的 UUID，vSphere 主 机 将 无 法 确定 在 哪个 卷 上 执行 读 写 操作 ， 从 而 导致 数据 损 
坏 。 因 此 ， 每 个 UUID 都 会 使 用 4 个 变量 的 哈 希 : 日 期 、 时 间 ESXi MAC 地 址 以 及 LUN ID。VMFS 数 据 存储 UUID 只 适用 于 通过 光 
纤 通道 、 以 太 网 光纤 通道 和 iSCSI 存储 阵列 提供 的 基于 块 的 VMFS 卷 ， 而 不 适用 于 NFS 卷 。 


在 为 LUN 生 成 快照 或 克隆 或 复制 LUN 时 ， 创 建 的 LUN 副 本 与 裸 LUN 完 全 相同 ， 包 括 它 的 UUID。 要 在 与 裸 LUN 相 同 的 环境 中 
使 用 LUN 副 本 ， 必 须 关 联 一 个 新 的 UUID。 在 vSphere 识 别 此 LUN 后 ， 管 理 员 会 看 到 3 个 选项 : 


“ 保持 现 有 签名 
. 分 配 新 的 签名 
. 格式 化 磁盘 


应 用 新 的 签名 对 卷 上 的 虚拟 机 会 产生 重大 影响 。 每 个 虚拟 机 都 会 引用 其 VMX、VMSD 和 VMDK 文 件 中 的 数据 存储 UUID， 
此 ， 对 卷 重新 签名 会 导致 此 UUID 无 法 识别 正确 的 数据 存储 。 通 过 在 vCenter Server 中 重新 注册 虚拟 机 可 以 轻松 解决 此 问题 ,但 
根据 具体 情况 ， 可 能 并 非 始终 如 此 。 


在 灾难 恢复 计划 中 ， 数 据 人 存储 UUID 尤 为 重要 ， 其 中 ， 复 制 的 卷 会 更 改 签名 ， 从 而 出 现 前 面 提 到 的 问题 。 在 这 种 情况 下 ， 必 
须 从 vCenter Server 清 单 中 移 除 所 有 虚拟 机 ， 并 使 用 新 的 UUID 重 新 注册 。 手 动 执行 此 操作 比较 繁琐 ， 但 又 难以 实现 自动 化 。 幸 
运 的 是 ，VMware Site Recovery Manager 可 以 在 虚拟 机 恢复 工作 流 中 自动 执行 此 操作 ， 从 而 明显 地 简化 了 这 一 过 程 ， 并 有 助 
于 避免 出 错 。 在 设计 中 使 用 Site Recovery Manager 可 在 备份 站 点 上 使 用 不 同 的 签名 创建 复制 的 卷 ， 而 恢复 站 点 上 的 占 位 虚拟 机 
配置 文件 会 引用 正确 的 恢复 站 点 UUID。 


2. 庶 拟 机 文件 系统 


VMware 专属 虚拟 机 文件 系统 (VMFS) 是 一 个 集群 文件 系统 ， 人 允许 多 个 物理 服务 器 同时 读 写 同 一 存储 设备 。 该 集群 文件 系 
统 支持 基于 虚拟 化 的 分 布 式 基础 架构 技术 ， 如 VMeotion; 它 允 许多 个 vSphere 主 机 同时 访问 共享 虚拟 机 存储 ， 能 够 在 不 同 的 物理 
服务 器 之 间 实 时 迁移 正在 运行 的 虚拟 机 。 同 样 ，VM Fs 还 支持 基于 虚拟 化 的 服务 ， 例 如 ， 它 允许 跨 vSphere 主 机 集群 运行 
vSphere 分 布 式 资源 调度 (DRS) 和 vSphere HA。vSphere HA 机 制 类 似 于 VMFSs 磁 盘 分 布 式 锁 机 制 ， 可 以 确保 同一 个 虚拟 机 在 
同一 时 间 不 会 被 多 台 服 务 器 开启 。 主 机 出 现 故障 时 ， 每 个 虚拟 机 的 磁盘 锁 会 被 释放 ， 从 而 使 这 些 虚 拟 机 在 同一 集群 内 能 够 访问 相 
同 存储 的 其 他 主机 上 重新 启动 。 这 些 之 所 以 能 够 实现 ， 正 是 借助 了 VMFS 的 特性 。 


VMFS 格 式 的 数据 存储 可 以 部 署 在 基于 SCSI 的 存储 设备 上 ， 如 光纤 通道 、 以 太 网 光纤 通道 (FCoE) 、iSCSI SAN 设 备 以 及 
本 地 存储 或 直 连 存储 (DAS) 。 基 本 上 可 以 说 ， 采 用 这 种 数据 存储 ， 使 虚拟 化 突破 了 “每 个 主机 一 个 客户 机 虚拟 机 ”的 限制 。 


此 外 ， 如 图 2-27 所 示 ，IT 组 织 通过 VM FSs 在 一 个 中 心 位 置 存储 整个 机 器 的 状态 ， 使 虚拟 机 置 备 得 到 显著 简化 ， 尽 管 这 并 不 是 
必需 的 。 
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图 2-27 VMFS 数 据 存 储 


3 个 主机 服务 器 中 的 每 个 主机 上 都 驻 留 有 两 个 虚拟 机 。 虚 拟 机 与 虚拟 磁盘 (VMDK) 实体 之 间 可 通过 逻辑 连接 联系 在 一 起 。 
VMFS 数 据 存 储 表示 从 共享 存储 系统 置 备 的 单个 LUN， 可 以 通过 SAN 访 问 。 


虚拟 机 将 VMDK 视 为 客户 机 操作 系统 中 的 本 地 SCSI 目 标 。 虚 拟 机 本 身 无 法 识别 任何 VM DK 文件 。 如 前 所 述 ， 当 访问 虚拟 磁 
盘 时 ，VMFS 数 据 存储 上 的 虚拟 机 内 容 实 际 上 就 是 一 组 文件 。 对 于 虚拟 机 上 运行 的 客户 机 操作 系统 ，VMFS 会 保留 内 部 文件 系统 
语义 ， 以 确保 正在 运行 的 应 用 具有 正确 的 行为 且 数 据 完整 。 此 外 ， 只 要 客户 机 支持 ， 就 可 以 轻松 地 从 虚拟 机 上 热 添加 或 热 移 除 客 
户 机 操作 系统 虚拟 磁盘 ， 该 过 程 是 一 个 标准 化 过 程 ， 不 需要 关闭 虚拟 机 电源 。 


此 外 ， 还 可 以 添加 物理 存储 层 的 子 系统 中 新 出 现 的 LUN， 无 需 关 闭 并 重新 打开 物理 服务 器 电源 ， 这 些 LUN 就 可 以 被 系统 自 
动 发 现 并 在 主机 和 集群 中 可 用 。 以 前 创建 的 VMFS 数 据 存 储 的 存储 容量 也 可 以 热 扩展 ， 而 无 需 关闭 物理 主机 的 电源 。 如 果 客户 机 
操作 系统 支持 ， 还 可 以 扩展 VM FS 数据 存储 上 驻 留 的 虚拟 磁盘 。 


同样 ， 如 果 任 何 VMFS 数 据 存 储 出 现 故 障 或 变 得 不 可 用 ， 例 如 ， 发 生 全 部 路 径 异 常 (APD) 或 永久 设备 丢失 (PDL) 事件 ， 
则 只 有 连接 该 LUN 的 虚拟 机 会 受 影响 ， 而 使 用 其 他 LUN 上 的 虚拟 磁盘 的 所 有 虚拟 机 都 将 继续 正常 运行 。 


全 注意 在 永久 设备 丢失 (PDL) 事件 中 ，ESXi 会 认为 存储 设备 丢失 是 永久 性 的 。 这 种 事件 通常 是 因为 vSphere 主 机 无 法 访 
问 LUN 而 引起 的 。PDL 的 状态 是 根据 存储 阵列 向 LUN 返 回 的 SCSI 检 测 码 得 出 的 ，ESXi 会 将 此 特定 代码 解释 为 永久 故障 。 





然而 ， 在 全 部 路 径 异 常 (APD) 故障 情况 下 ，ESXi 则 认为 连接 丢失 是 临时 的 。 如 果 主 机 不 能 通过 SAN 访 问 存 储 阵 列 ， 就 可 
能 发 生 这 种 情况 。 


3.NFS 卷 


NFS 是 一 种 基于 文件 的 协议 ， 用 于 在 vSphere 主 机 和 和 NAS 设备 之 间 建 立 客 户 机 -服务 器 关系 。 与 基于 SCSI 的 块 存储 不 
同 ，NAS 系 统 本 身 要 负责 维护 物理 存储 文件 和 目录 的 布局 与 结构 。 


NFS 数 据 存储 可 以 提供 大 部 分 与 基于 SCSI 的 VMFS 卷 相同 的 特性 和 功能 。 例 如 ，NFS 允 许多 个 主机 上 运行 的 多 个 虚拟 机 同时 
访问 卷 ， 同 时 也 支持 vSphere DRS 和 vSphere HA。 此 外 ， 与 VYMFS 数 据 存储 类 似 ， 一 旦 存储 被 主机 挂 载 ，vSphere 管 理 员 就 能 
使 用 该 存储 来 部 署 虚 拟 机 。 


除 此 之 外 ，NFSs 数 据 存储 还 提供 了 其 他 一 些 优势 ， 例 如 ， 每 端口 成 本 比 光纤 通道 解决 方案 更 低 、 可 在 10GB 环 境 中 实现 高 性 
能 ， 以 及 通过 VMware 精简 置 备 (在 NFS 上 创建 vmdk 时 使 用 的 缺 省 格式 ) 节省 存储 空间 等 。 第 3 章 将 对 这 些 协议 进行 更 全 面 的 
介绍 ， 并 深入 剖析 在 设计 中 选择 每 种 传输 机 制 时 各 自 的 优 缺 点 。 


2.2.4 裸 设备 映射 


对 于 某 些 用 例 ， 虚 拟 机 需要 直接 识别 裸 LUN。 在 vSphere 环 境 中 ， 可 以 通过 裸 设备 映射 (RDM) 来 实现 这 一 点 。 


与 YMFS 和 和 NFS 数据 存储 在 全 局 池 中 提供 共享 存储 不 同 ，RDM 可 向 一 个 或 多 个 虚拟 机 直接 提供 LUN 访 问 ， 方 法 是 由 RDM 提 
供 一 个 从 裸 卷 到 虚拟 机 的 符号 连接 。 在 虚拟 机 配置 文件 (vmx 文件 ) 中 将 引用 该 映射 文件 (而 不 是 裸 卷 ) ， 其 中 包含 指向 裸 设备 
的 符号 连接 ， 如 图 2-28 所 示 。 


地 址 解析 





图 2-28 裸 设备 映射 连接 拓扑 


在 图 2-29 所 示 的 设计 中 ， 虚 拟 化 层 充当 虚拟 机 和 存储 阵列 提供 的 LUN 之 间 的 连接 代理 。 此 类 解决 方案 的 主要 用 例 是 ， 为 跨 
合集 群 (Cluster Across Boxes，CAB) 虚拟 机 集群 技术 以 及 物理 与 虚拟 机 (物理 与 N+1 虚 拟 机 ) 集群 技术 提供 支持 ， 如 
Microsoft Windows Server 故 障 切 换 集群 (WSFC) 和 Oracle RAC。 


使 用 裸 设备 映射 (RDM) 时 ， 你 仍 可 以 执行 以 下 操作 : 


* 使 用 vMotion 迁 移 连 接 了 裸 磁盘 的 虚拟 机 。 


. 使 用 vSphere Web Client 将 裸 卷 添加 到 虚拟 机 。 


使 用 文件 系统 功能 ， 如 分 布 式 文件 锁 、 权 限 和 命名 功能 等 。 


服务 用 户 
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图 2-29 ” 跨 盒 集群 Windows Setrvet 故 障 切 换 集 群 示例 
在 vSphere 中 ， 裸 设备 映射 可 以 在 两 种 兼容 模式 下 运行 : 


` 虚拟 兼容 模式 





映射 方式 完全 类 似 于 使 用 虚拟 磁盘 文件 ， 包 括 可 使 用 存储 阵列 快照 。 





* 物理 兼容 模式 一 一 允许 直接 访问 SCSI 设 备 ， 主 要 用 于 那些 需要 低级 别 控制 的 应 用 。 


这 两 种 兼容 模式 都 支持 一 些 重 要 的 VMware 可 用 性 功能 ， 如 VMotion、HA 和 和 DRS 集群。 这 两 种 机 制 的 主要 区 别 在 于 虚拟 机 
级 别 的 SCSI 虚 拟 化 程度 ， 这 会 在 WSFC 和 虚拟 机 快照 方面 造成 一 些 限制 。 


2.2.5 ”什么 情况 下 使 用 RDM 而 不 使 用 VMFS 或 NFS 


在 什么 情况 下 应 该 使 用 RDM， 在 什么 情况 下 又 该 使 用 VMFS 或 NFS 数 据 存 储 呢 ? 这 取决 于 具体 的 负载 。 最 近 的 性 能 测试 表 
明 ， 除 了 处 理 小 块 事务 ，RDM 带 来 的 性 能 优势 并 不 明显 。 


然而 ,使 用 RDM 时 ， 利 用 模板 和 和 置 备 虚拟 机 的 过 程 非常 复杂 。 使 用 裸 设备 映射 时 ， 每 次 置 备 需要 使 用 裸 卷 的 虚拟 机 时 都 必 
须 与 存储 管理 团队 互动 。 此 外 ， 在 将 大 量 LUN 了 映射 到 单个 主机 时 ， 还 需 考虑 内 存 因素 。 


对 于 大 多 数 应 用 ，VMFS 或 NFS 是 很 明确 的 选择 。VMFS 提 供 自动 化 的 文件 系统 ， 可 以 简化 在 vSphere 集 群 上 置 备 和 管理 虚 
拟 机 存储 的 过 程 。 此 外 ，VMFS 还 具有 自动 分 层 的 文件 系统 ， 包 含 用 户 友好 的 文件 命名 。 它 可 以 自动 处 理 目录 与 子 目 录 的 命名 过 
程 ， 简 化 了 vSphere 管 理工 作 。VMFS 通 过 改进 从 共享 存储 池 置 备 虚拟 磁盘 的 过 程 ， 提 高 了 磁盘 利用 率 ， 并 通过 使 用 通用 存储 
IO 控制 机 制 ， 优 化 了 多 个 虚拟 机 的 MO 处 理 。 


在 设计 中 使 用 裸 设 备 映射 时 ， 必 须根 据 每 个 特定 虚拟 机 的 应 用 或 负载 需求 来 确定 每 个 LUN 的 大 小 ， 这 通常 需要 更 多 地 依赖 
存储 管理 团队 。 由 于 这 些 原因 ， 在 现代 化 虚拟 数据 中 心 环 境 中 ， 只 有 当 虚 拟 机 必须 直接 与 存储 系统 上 的 裸 磁 盘 进 行 交 互 时 ， 才 推 
荐 使 用 裸 设备 映射 。 在 典型 用 例 中， 你 使 用 基于 存储 系统 的 数据 快照 ; 或 者 ， 你 有 大 量 数据 ， 但 不 想 将 这 些 数 据 移动 到 虚拟 磁盘 


中 。 此 外 ， 如 图 2-29 所 示 ， 单 副本 Microsoft Windows Server 故 障 切 换 集群 需要 使 用 RDM， 还 有 某 些 带 内 存储 系统 也 会 需要 使 
用 RDM 来 执行 管理 任务 。 


2.2.6 _ Storage vMotion 和 增强 型 vMotion 操 作 


Storage vMotion (SvMotion) 允许 将 正在 运行 的 虚拟 机 实时 迁移 到 新 的 存储 环境 和 设备 ， 几 乎 不 会 影响 正在 运行 的 应 用 
的 性 能 或 者 影响 极 小 。 具 体 而 言 ，SVvMeotion 现 在 包含 许多 增强 的 选项 ， 当 主机 上 的 磁盘 独自 移动 到 其 他 存储 位 置 时 ， 虚 拟 机 仍 
然 可 以 在 该 主机 上 运行 。 在 本 章 介绍 的 传统 存储 模型 中 ， 主 机 通常 存在 多 个 卷 ， 而 每 个 卷 的 性 能 和 /或 容量 存在 差异 。 


因此 ， 通 过 SvMotion 可 以 方便 地 将 虚拟 机 的 磁盘 资源 从 一 个 数据 存储 迁移 到 另 一 个 数据 存储 。 由 于 SvMotion 与 协议 无 
关 ， 因 此 迁移 的 目标 位 置 可 以 是 功能 、 容 量 或 类 型 不 同 的 存储 ; 你 可 以 将 虚拟 机 从 光纤 通道 等 物理 类 存储 迁移 到 iSCSI| 或 NFS 等 
其 他 类 型 的 存储 。 


执行 SvMotion 迁 移 时 ， 整 个 过 程 不 会 对 虚拟 机 的 性 能 产生 明显 影响 ， 也 不 需要 停机 。 大 多 数 情 况 下 ， 迁 移 过 程 对 客户 机 操 
作 系 统 和 正在 运行 的 应 用 是 透明 的 。 在 执行 SYMotion 操 作 的 过 程 中 ，vSphere 管 理 员 可 以 选择 将 虚拟 机 的 所 有 文件 放置 在 单个 
数据 存储 上 ， 也 可 以 为 虚拟 机 配置 文件 及 其 虚拟 磁盘 分 别 选择 不 同 的 位 置 。 


在 vSphere 5.1 中 引入 了 X-vMotion (通常 称 为 增强 型 vMotion) ， 将 基于 计算 的 vMotion 和 Storage vMotion 组 合 到 了 单 
个 操作 任务 中 。 借 助 此 功能 ， 管 理 员 可 以 在 应 用 运行 时 将 所 属 虚 拟 机 及 其 人 存储 资源 从 一 个 vSphere 主 机 完全 迁移 到 另 一 个 主机 ， 
而 不 会 影响 服务 ， 即 使 存储 未 在 主机 之 间 共 享 也 是 如 此 。 


有 许多 storage vMotion 用 例 ， 而 使 用 增强 型 vxYMotion 技 术 (如 远 距 离 vMotion) 的 用 例 方案 更 是 成 倍增 长 。 但 是 ， 传 统 
vSphere 管 理 员 在 管理 数据 中 心 时 ， 早 已 习惯 使 用 SvMotion 来 执行 一 些 标准 运 维 任 务 。 例 如 ， 涉 及 SvMotion 的 常见 任务 或 场景 
可 能 包括 : 


* 在 将 EESXi 主 机 平台 从 旧版 升级 到 最 新 版 本 时 ，vSphere 运 维 团队 可 以 将 正在 运行 的 虚拟 机 从 VMFS3 数 据 存 储 迁 移 到 VMEFS5 
数据 存储 并 升级 旧 数 据 存储 ， 而 不 会 给 虚拟 机 负载 带 来 任何 影响 。 由 于 与 块 及 卷 大 小 相关 的 几 个 原因 ， 创 建新 VMEFS5 卷 的 方法 
优 于 升级 。 随 后 ， 管 理 员 可 以 使 用 SvMortion 将 虚拟 机 重新 迁移 回 原来 的 位 置 ， 整 个 过 程 不 需要 任何 虚拟 机 停机 。 


* 在 执行 存储 维护 任务 时 ，vSphere 管 理 员 可 以 使 用 SvMotion 将 虚拟 机 迁移 到 另 一 个 数据 存储 上 ， 虚 拟 机 无 需 停 机 即 可 维 
护 、 重 新 配置 或 停 用 存储 设备 。 


* 在 重新 分 配 存储 负载 时 ，vSphere 管 理 员 可 以 使 用 SvMotion 将 虚拟 机 负载 或 各 个 虚拟 磁盘 重新 分 配 到 具有 不 同 容 量 的 其 他 
存储 上 ， 以 实现 容量 平衡 和 性 能 改进 。 


. 为 了 满足 服务 级 别 要 求 ，vSphere 管 理 员 可 以 将 虚拟 机 负载 迁移 到 具有 不 同 服务 级 别 的 其 他 分 层 存 储 上 ， 以 满足 这 些 应 用 
不 断 变化 的 业务 需求 。 


2.2.7 ”数据 存储 集群 


很 容易 区 分 数据 存储 集群 与 vSphere 集 群 。 数 据 存 储 集群 将 存储 资源 池 化 到 | 单个 逻辑 实体 ， 该 实体 随后 将 成 为 受 管 对 象 。 
vSphere 运 维 团队 利用 该 对 象 可 以 将 多 个 数据 存储 作为 单个 存储 资源 单位 进行 管理 ， 根 据 使 用 的 数据 存储 集群 功能 ， 这 可 以 在 集 


群 内 的 存储 资源 之 间 实 现 虚拟 机 资源 的 最 佳 平 衡 。 


实际 上 ， 数 据 人 存储 集群 提供 了 一 个 从 人 存储 本 身 抽象 出 来 的 逻辑 管理 层 。 既 然 如 此 ， 设 计 就 不 得 不 考虑 主机 、 集 群 、 虚 拟 机 和 
虚拟 磁盘 之 间 的 关系 ， 如 图 2-30 所 示 。 通 常情 况 下 ， 数 据 存储 的 隔离 由 企业 和 服务 提供 商 基 于 业务 需求 来 实施 。 存 储 设备 这 种 
新 的 逻辑 抽象 层 可 能 会 对 此 有 一 定 的 影响 ， 甚 至 会 破坏 组 织 内 与 现 有 存储 平台 上 负载 放置 相关 的 策略 与 流程 。 


实现 VSphere 数 据 存储 集群 还 可 能 会 影响 其 他 设计 因素 ， 如 数据 存储 的 大 小 、 数 据 存储 的 数量 、 数 据 存储 以 及 每 个 数据 存储 
上 虚拟 机 磁盘 的 数量 。 但 在 现实 中 ， 如 果 没 有 实施 存储 分 布 式 资源 调度 (Storage Distributed Resource 
Scheduler，SDRS) ， 数 据 存储 集群 只 是 抽象 为 单一 逻辑 管理 构造 块 的 一 组 数据 存储 。 启 用 SDRS 后 ， 数 据 存储 集群 成 为 整个 集 
群 内 平衡 虚拟 机 存储 资源 的 单位 ; 它 基 于 应 用 负载 进行 平衡 ， 这 与 vSphere DRS 基 于 CPU 负载 、 内 存 负载 和 资源 可 用 性 跨 物 理 
主机 平衡 计算 负载 时 采用 的 方式 一 样 。 
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图 2-30 ”数据 存储 集群 设计 示例 


2.2.8 存储 分 布 式 资源 调度 


存储 分 布 式 资源 调度 (SDRS) 是 在 storage vMotion 机 制 和 数据 人 存储 集群 逻辑 构造 的 基础 上 进一步 发 展 而 来 的 ， 它 使 得 
据 存储 集群 成 为 负载 均衡 的 存储 域 。vSphere 运 维 团队 可 以 将 SDRS 数 据 存储 集群 作为 单个 实体 来 管理 并 用 于 虚拟 机 置 备 ， 而 不 
必 单 独 决定 每 个 虚拟 磁盘 的 放置 。 


如 果 没有 启用 SDRS，vSphere 管 理 员 若 要 部 署 一 个 新 虚拟 机 ， 那 么 通常 不 得 不 手动 尝试 找到 一 个 具有 可 用 空间 且 没 有 高 延 
迟 的 数据 存储 。 另 外 ， 管 理 员 还 必须 定期 检查 虚拟 机 是 否 存在 高 延迟 ， 并 监控 数据 存储 是 否 出 现 磁盘 空间 不 足 警告 。 当 然 ， 这 种 
方法 的 效率 不 高 ， 而 且 需 要 人 工 干预 的 操作 会 耗费 运 维 团队 的 大 量 时 间 。 此 外 ， 所 有 这 些 运 维 开销 还 存在 错误 风险 ， 这 可 能 会 导 
致 系统 性 能 不 佳 或 出 现 应 用 故障 。 


然而 ， 启 用 SDRS 后 ， 系 统 会 将 虚拟 机 和 虚拟 磁盘 自动 放置 在 具有 最 低 延 迟 和 最 大 可 用 容量 的 数据 存储 上 。 如 果 虚 拟 机 接收 
到 的 延迟 超出 了 业务 要 求 ， 则 系统 会 自动 通过 SvM otion 将 其 迁移 到 集群 内 最 合适 的 数据 人 存储 上 ， 以 实现 负载 均衡 。 以 下 场景 
中 ， 负 载 会 初始 放置 到 数据 存储 集群 内 最 合适 的 数据 存储 上 : 


` 虚拟 机 首次 部 署 


“ 克隆 虚拟 机 


* 迁移 虚拟 机 


除了 初始 放置 以 外 ，SDRS 负 载 均衡 还 可 以 基于 高 延迟 或 低 容量 来 触发 迁移 。 低 容量 情况 需 根据 不 断 收集 的 容量 信息 来 计 
算 ， 默认 情况 下 利用 率 达 到 80% 时 就 会 迁移 。SDRS 算 法 在 基于 过 去 24 小 时 的 趋势 进行 成 本 和 效益 分 析 时 ， 每 8 小 时 会 进行 一 次 
I/O 延 迟 评估 。 


从 基于 长 期 趋势 的 计算 中 可 以 看 到 ，SDRS 算 法 不 会 快速 或 突然 做 出 决策 ， 而 是 在 实际 更 改 或 者 建议 更 改 虚 拟 磁盘 的 放置 之 
前 ,评估 一 段 时 间 的 延迟 情况 。SDRS 还 会 结合 使 用 存储 I/O 控 制 ， 以 考虑 要 分 配给 虚拟 机 的 配额 比例 。 有 关 这 方面 的 内 容 ， 将 
在 下 一 节 中 详细 阐述 。 


SDRS 机 制 的 其 他 特性 还 包括 支持 虚拟 磁盘 关联 和 反 关 联 规 则 ， 如 图 2-31 所 示 。 
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图 2-31 存储 分 布 式 资源 调度 的 关联 规则 


另外 ， 当 数据 存储 进入 维护 模式 时 ， 所 有 已 注册 的 虚拟 机 磁盘 将 从 该 数据 存储 琉 散 到 位 于 同一 数据 存储 集群 内 的 其 他 数据 存 
储 上 。 然 而 ， 模 板 、1SO 映 像 和 其 他 未 注册 的 虚拟 机 不 会 迁移 ， 因 此 在 维护 期 间 将 不 可 用 。 


SDRS 改 进 了 vsphere 人 存储 资源 的 整体 运 维 管理 ， 节 省 了 存储 管理 员 和 vsSphere 管 理 员 的 大 量 时 间 ， 从 而 降低 了 运 维 成 本 。 
最 后 ， 以 下 是 与 SDRS 实 现 有 关 的 其 他 设计 考虑 因素 : 


需要 收集 至 少 16 个 小 时 的 IMO 统 计数 据 ，SDRS 才 会 基于 延迟 给 出 第 一 个 建议 。 


* 可 以 创建 一 个 计划 任务 来 修改 SDRS 设 置 ， 在 某 个 固定 时 段 内 〈 如 在 备份 周期 内 ) 停止 收集 统计 数据 ， 以 避免 因为 数据 失 
真 而 引起 不 必要 的 迁移 。 


* 还 应 注意 分 层 、 复 制 、 去 重 和 精简 置 备 等 与 存储 系统 明确 相关 的 一 些 设计 考虑 因素 。 例 如 ， 单 个 SDRS 集 群 内 的 所 有 数据 
存储 应 该 向 负载 提供 相同 的 功能 和 特性 ， 以 便 跨 数据 存储 实现 负载 均衡 ， 从 而 确保 为 应 用 性 能 带 来 显著 益处 。 


2.2.9 ”存储 MO 控制 


人 们 普遍 认为 ， 虚 拟 化 性 能 问题 绝 大 多 数 是 由 于 共享 存储 中 的 延迟 造成 的 。 存 储 I/O 控 制 旨 在 提供 一 种 服务 质量 机 制 ， 以 确 
保 所 有 虚拟 机 能 够 获得 所 需 的 存储 性 能 ， 并 防止 发 生 争 用 问题 。 因 此 ， 通 过 采取 这 种 主动 方法 ， 人 存储 MO 控制 能 够 减少 可 能 导致 
相 邻 干扰 场景 的 情况 (也 就 是 某 台 虚拟 机 影响 其 他 多 台 虚 拟 机 的 存储 资源 的 情况 ) 。 


在 典型 的 相 邻 干扰 场景 中 ， 由 于 持续 对 存储 资源 的 高 需求 ， 小 部 分 的 低 优 先 级 虚拟 机 会 影响 并 减 慢 大 量 高 优先 级 虚拟 机 的 速 
度 。 一 旦 局 用 了 存储 I/O 控 制 ， 通 过 监控 每 个 数据 存储 的 延迟 ， 将 有 助 于 缓解 这 些 情况 。 如 果 延 迟 达到 某 个 疹 值 ， 存 储 /O 控 制 
机 制 将 根据 分 配给 每 个 虚拟 机 的 份额 开始 限制 某 些 负载 的 高 MO。 


存储 1/O 控 制 通过 监控 和 识别 延迟 超过 设 定 阔 值 的 情况 来 实现 此 特性 。 它 通过 确保 访问 数据 存储 的 每 个 虚拟 机 都 能 按照 指定 
份额 值 分 配 到 合适 比例 的 MO 资源 以 有 效 帮 助 缓解 拥堵 。 因 此 ， 该 技术 可 以 动态 分 配 存 储 /O 资 源 ， 以 确保 即使 在 高 峰 负载 引起 
的 资源 争 用 期 间 ， 虚 拟 化 负载 也 能 维持 所 需 的 性 能 服务 级 别 。 这 种 机 制 的 最 终结 果 是 ， 运 维 团队 减少 了 手动 提供 持续 人 存储 1/O 管 
理 而 产生 的 运 维 开销 ， 提 高 了 生产 率 。 


人 存储 MO 控制 在 虚拟 机 级 别 设 置 ， 你 可 以 设置 特定 级 别 的 份额 以 及 每 秒 允许 的 最 大 MO 数 。 如 果 你 要 为 虚拟 机 配置 的 限制 值 
是 以 每 秒 兆 字 节 数 (MB/s) 而 不 是 IOPs 为 单位 来 衡量 的 ， 也 可 以 基于 该 虚拟 机 的 典型 MO 大 小 ， 将 MB/s 值 转换 为 IOPs 值 。 


例如 ， 要 将 某 个 具有 64KB 1/O 的 特定 应 用 限制 为 不 超过 10MB/s， 那 么 可 为 该 虚拟 机 配置 最 高 1601OPS。 
下 面 是 MB/s 与 'OPS 相 互 转换 的 公式 : 

IOPS = (MB/s 知 吐 量 /每 个 MO 的 KB 数 ) x1024 

或 者 

MB/s = (IOPSx 每 个 MO 的 KB 数 ) /1024 

在 正常 操作 条 件 下 ， 存 储 /O 控 制 不 会 采取 任何 措施 。 

存储 1/O 控 制 队列 限制 机 制 只 会 在 vSphere 管 理 员 配 置 的 两 个 特定 阔 值 中 的 任意 一 个 被 超出 时 才 会 进行 干预 。 
. 超出 数据 存储 的 显 式 拥堵 延迟 阔 值 集 ; 观察 到 的 延迟 或 响应 时 间 (以 毫秒 为 单位 ) 超出 配置 的 阅 值 。 

. 超出 数据 存储 的 峰值 性 能 百分比 值 。 


存储 I/O 控 制 需 在 每 个 数据 存储 上 单独 启用 。 一 旦 启用 ，ESXi 就 会 开始 监控 从 连接 到 存储 设备 的 主机 观察 到 的 该 设备 延迟 。 
名 为 iormstats.sf 的 文件 是 直接 在 所 讨论 的 数据 存储 上 创建 的 ， 访 问 该 数据 存储 的 所 有 主机 均 可 读 写 该 文件 。 如 果 设 备 延迟 超出 
阅 值 配 置 中 定义 的 值 ( 缺 省 值 为 30 富 秒 ) ， 则 该 数据 存储 将 视 为 存在 拥堵 ， 存 储 I/O 控 制 队 列 限制 机 制 将 采取 干预 措施 ， 确 保 只 
为 访问 该 数据 存储 的 每 个 虚拟 机 按 份 额 比例 分 配 适 当 的 10 资 源 。 





默认 情况 下 ， 访 问 该 数据 存储 的 所 有 虚拟 机 将 拥有 相同 的 份额 。 在 这 种 情况 下 ， 无 论 虚拟 机 的 大 小 或 应 用 负载 如 何 ， 每 个 虚 
拟 机 都 将 授予 对 数据 存储 完全 相同 的 访问 。 因 此 ， 在 传统 存储 设计 中 ， 要 想 利 用 存储 MO 控制 的 优势 ， 非 常 重要 的 一 点 是 需要 根 
据 SLA 要 求 为 虚拟 机 配置 相应 的 份额 比例 。 


值得 注意 的 是 ， 存 储 I/O 控 制 不 只 是 集群 范围 内 的 设置 。 它 适用 于 连接 到 已 启用 的 数据 存储 的 任何 一 台 vSphere 主 机 。 所 有 
连接 的 主机 无 论 是 否 属于 同一 个 集群 ， 都 将 写 入 该 数据 存储 的 iormstats.sf 文 件 。 但 是 ， 公 认 的 比较 好 的 做 法 是 不 要 跨 不 同 集群 
共享 数据 存储 ,虽然 有 时 在 一 些 特 定 客户 环境 中 为 了 满足 特定 设计 需求 而 不 得 不 这 样 做 。 


未 启用 存储 I/O 控 制 时 ， 所 有 vSphere 主 机 的 设备 队列 深度 都 相同 。 因 此 ， 如 果 某 个 单独 的 虚拟 机 能 够 产生 足够 的 /O， 从 而 
实现 数据 存储 的 最 大 化 利用 ， 那 么 负载 有 可 能 会 受到 虚拟 化 层 的 限制 ， 从 而 有 利于 不 那么 重要 的 虚拟 机 。 因 此 ， 不 管 后 端 磁盘 配 
置 如 何 ， 始 终 比较 好 的 做 法 是 启用 存储 |/O 控 制 ， 并 将 其 羡 值 设置 得 足够 高 ， 以 避免 性 能 降低 。 


它 还 建议 跨 所 有 数据 存储 启用 存储 MO 控制 功能 ， 除 非 存 储 供应 商 发 布 了 其 他 指导 意见 。 因 此 ， 如 果 在 设计 中 引入 此 功能 或 
者 针对 整个 环境 建议 这 方面 更 改 时 可 能 会 影响 数 百 甚至 数 干 台 虚拟 机 ， 那 么 最 好 提前 向 存储 供应 商 咨 询 。 


例如 ， 许 多 存储 系统 供应 商 建议 在 实施 自动 分 层 技 术 时 禁用 存储 Il/O 控 制 ， 这 是 因为 存储 |/O 控 制 不 能 确定 分 层 存 储 的 能 
力 。 


启用 存储 |/O 控 制 后 ， 将 全 局 管理 可 用 的 总 磁盘 份额 ， 每 个 主机 接收 的 数据 存储 资源 比例 取决 于 在 该 主机 上 运行 的 虚拟 机 的 
总 份额 数 ， 该 份额 与 访问 该 数据 存储 的 所 有 虚拟 机 的 总 份额 数 相 关 。 例 如 ， 为 存储 MO 控 制 配置 了 以 下 值 ， 如 图 2-32 所 示 。 


“ 虚拟 机 A 接收 设备 队列 75% 的 空间 ， 共 拥有 1500 份 额 ， 占 整个 存储 队列 的 60%。 
` 虚拟 机 B 接 收 设备 队列 25% 的 空间 ， 共 拥有 500 份 额 ， 占 整个 存储 队列 的 20%。 


* 虚拟 机 C 接 收 设备 队列 100% 的 空间 ， 位 于 专用 ESXi 主 机 上 ， 共 拥有 500 份 额 ， 因 此 只 占 整 个 存储 阵列 队列 的 20%。 
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图 2-32 ”存储 I/O 控 制 器 的 机 制 


在 vSphere 5 中 ， 存 储 I/O 控 制 默认 将 出 现 相 邻 干扰 并 限制 MO 之 前 的 平均 延迟 阔 值 设置 为 30 富 秒 。 但 在 现实 中 ， 针 对 不 同性 
能 特点 的 磁盘 、 磁 盘 层 和 存储 供应 商 ， 很 难 设 定 一 个 固定 的 阐 值 。 因 此 ， 这 个 设置 过 程 在 vSphere 5.5 中 设计 为 动态 实现 。 延 迟 
阔 值 现在 设置 为 由 MO injector (实际 上 就 是 存储 MO 控制 功能 ) 确定 的 值 。 这 种 机 制 通过 使 用 I/O injector (存储 I/O 控 制 ) 计算 
峰值 吞吐 量 来 进行 设置 。 这 样 ， 将 能 够 确定 达到 90% 吞 吐 量 值 的 时 间 并 测量 该 时 间 点 的 延迟 ， 从 而 据 此 决定 阅 值 。 


这 是 可 配置 的 值 ，vSphere 管 理 员 可 以 进行 更 改 ， 他 可 以 将 吞吐 量 值 设 为 其 他 百分比 值 ， 或 者 继续 输入 一 个 毫秒 值 。 


例如 ， 如 果 vsphere 管 理 员 希 望 根据 预定 义 的 业务 服务 级 别 为 特别 配置 的 分 层 存 储 确定 一 个 特殊 的 延迟 值 ， 则 可 以 如 表 2-22 
中 的 示例 所 示 进 行 设置 。 


尽管 VMware 曾 建 议 将 缺 省 阔 值 设 为 30 毫 秒 (这 个 值 应 该 可 以 满足 大 多 数 虚 拟 机 的 要 求 ) ， 但 在 大 多 数 设 计 中 ， 应 根据 负 
载 的 特性 来 确定 最 佳 配置 ， 以 促进 vSphere 平 台 更 有 效 地 利用 底层 存储 系统 的 资源 。 


表 2-22 ”分 层 存储 I/O 榨 制 延 迟 阀 值 的 示例 


层级 /服务 质量 阔 值 
第 1 层 10 一 15 毫秒 
第 2 层 15 一 20 毫秒 





第 3 层 SAS (10K) 20 一 25 毫秒 





第 4 层 SATA (7.2K ) 30 毫秒 


在 LUN 级 别 运行 自动 分 层 机 制 的 自动 分 层 环境 中 ， 请 确保 使 用 供应 商 建 议 的 配置 。 如 果 供 应 商 没 有 提供 配置 建议 ， 则 使 用 
之 前 为 阵列 中 速度 最 慢 的 层 定义 的 羡 值 。 如 果 自动 分 层 机 制 在 块 级 别 运行 (也 称 为 子 LUN 分 层 ) ， 则 仍 使 用 供应 商 建议 的 配 
置 。 如 果 供应 商 没 有 提供 指导 值 ， 则 可 以 结合 阵列 中 最 快 和 最 慢 介 质 类 型 的 范围 来 确定 。 


对 于 诸如 云 服务 提供 商 这 样 在 公有 云 环境 中 针对 多 个 租户 拥有 数 干 台 虚 拟 机 、 和 希望 在 整个 仓储 平台 内 实现 高 整合 比 的 1T 组 
织 ， 应 将 存储 MO 特性 视 为 一 项 必要 的 设计 需求 。 使 用 存储 1/O 控 制 还 有 助 于 减少 相 邻 干扰 场景 的 影响 ， 包 括 少量 负载 会 试图 从 
其 他 性 能 良好 的 虚拟 机 抢占 存储 资源 。 


以 下 是 在 存储 设计 中 使 用 存储 I/O 控 制 还 需 考虑 的 一 些 其 他 重要 因素 : 
: 存储 I/ 〇 控制 只 是 Enterprise Plus 中 才 有 的 功能 ， 在 其 他 版 本 的 vSphere 平 台 上 不 可 用 。 
“启用 了 存储 I/O 〇 控制 的 数据 存储 必须 由 单个 vCenter Setvet 管 理 。 


" 进行 存储 刷新 ， 不 一 定 意味 着 vSphere 也 将 更 新 到 最 新 版 本 。 设 计 必 须 确保 连接 到 该 数据 存储 的 vCenter Server 和 所 有 主机 
上 都 必须 安装 vSphere 4.1 或 更 高 版 本 。 


* 存储 I/O 控 制 既 支 持 基于 块 的 存储 〈 如 iSCSIT 和 光纤 通道 ) ， 也 支持 NFS 存 储 协 议 ， 但 不 支持 RDM 或 多 扩展 块 LUN。 


2.2.10 ”传统 存储 模型 一 一 VAA| 


VMware vSphere Storage APls for Array Intergration (VAAI) 特性 可 利用 存储 阵列 的 高 级 特性 提供 硬件 加 速 功能 。 将 
部 署 配置 为 支持 此 传统 存储 模型 的 存储 时 ，VAAI 可 以 让 vSphere 主 机 将 特定 虚拟 机 和 存储 管理 操作 的 负载 迁移 到 兼容 的 存储 系 
统 。 


利用 这 些 vStorage AP1， 我 们 可 以 从 vsSphere 界 面 上 非常 方便 地 使 用 启用 了 VAAI 的 存储 阵列 的 高 级 存储 能 力 。 利 用 这 些 特 
性 ，vSphere 可 以 将 MO 负载 从 vCenter 或 主机 平台 迁移 到 存储 控制 器 。 这 些 操作 不 会 消耗 vSphere 组 件 上 的 CPU 处 理 能 力 、 内 存 
和 带宽 ， 也 不 会 因此 减 慢 执行 速度 ; 相反 ， 它 们 的 负载 会 分 流 ， 能 够 加 速 任务 完成 并 消除 主机 或 vCenter Server 上 的 潜在 瓶颈 ， 
从 而 释放 虚拟 资源 以 用 于 更 关键 的 操作 。 


这 些 API 定 义 了 一 组 存储 基本 类 型 ， 旨 在 减少 vSphere 主 机 和 vCenter Server 上 的 资源 开销 ， 从 而 显著 提高 诸如 克隆 和 置 零 
等 存储 密集 型 操作 的 性 能 。 这 些 vStorage API 的 主要 目的 是 让 存储 供应 商 提供 硬件 支持 ， 以 便 存 储 系 统 上 的 这 些 vSphere 密 集 
1/O 操 作 更 高 效 地 完成 。 


在 不 同 的 vSphere 版 本 和 存储 供应 商 集 成 中 ， 负 载 可 分 流 到 存储 硬件 的 具体 功能 列表 也 有 所 不 同 。 然 而 ， 下 述 功 能 通常 可 以 
在 使 用 下 列 基本 类 型 的 大 多 数 现代 存储 阵列 系统 上 实现 负载 分 流 。 


1) 完全 复制 : 使 用 完全 复制 基本 类 型 可 以 大 大 减少 部 署 或 迁移 虚拟 机 所 需 的 时 间 ， 因 为 这 个 过 程 完全 在 存储 阵列 而 非 ESXi 
服务 器 上 执行 。 除 了 基于 模板 或 通过 克隆 部 署 新 虚拟 机 时 会 使 用 完全 复制 ， 在 执行 storage vMotion 迁 移 时 也 会 使 用 。 在 同一 阵 


列 上 的 不 同 数据 存储 之 间 迁 移 虚 拟 机 时 ， 将 完全 在 存储 系统 上 执行 实时 复制 。 没 有 VAAI， 这 种 复制 操作 必须 使 用 VMkernel 软 件 
Data Mover 驱 动 程序 。 如 果 克 隆 或 复制 的 文件 有 数 百 GB， 操 作 可 能 会 持续 数 小 时 。 在 启用 VAAI 的 阵列 上 ， 完 全 复制 基本 类 型 
会 向 阵列 请 求 由 它 代 表 Data Move 来 执行 数据 块 复制 。 完 全 复制 基本 类 型 的 主要 用 例 是 克隆 和 迁移 操作 。 不 仅 能 够 节省 时 间 ， 
还 能 够 显著 节省 服务 器 的 CPU 周期 时 间 、 内 存 、DMA 缓 冲 区 ，HBA 队 列 内 的 SCSI 命 令 、IP 或 SAN 网 络 带宽 ， 以 及 存储 前 端 控 制 
器 的 MO。 


2) 块 置 零 : 与 虚拟 化 层 相 比 ， 让 存储 阵列 系统 完成 整个 磁盘 的 块 置 零 时 效率 更 高 、 速 度 更 快 。 通 常 ， 在 创建 厚 置 备 预 置 零 
(EZT) 格式 的 虚拟 磁盘 时 会 使 用 块 置 零 。 如 果 不 使 用 块 置 零 基 本 类 型 ，vSphere 主 机 必须 先 对 整个 磁盘 完成 所 有 置 零 写 入 ， 然 
后 才能 报告 任务 完成 。 对 于 大 型 磁盘 ， 这 个 过 程 非常 耗 时 。 而 使 用 块 置 零 基 本 类 型 时 ， 磁 盘 阵 列 会 将 游标 返回 给 请 求 服务 ， 就 像 
已 完成 写 零 过 程 一 样 。 然 后 ， 它 会 继续 执行 块 的 置 零 工作 ， 而 不 需要 像 在 虚拟 化 层 上 使 用 软件 置 零 时 那样 在 完成 工作 之 前 一 直 持 
有 游标 。 以 下 置 备用 例 使 用 了 块 置 零 基本 类 型 进行 加 速 : 


. 对 厚 置 备 预 置 零 的 目标 盘 执行 克隆 操作 
- 为 精简 置 备 的 虚拟 磁盘 分 配 新 文件 块 
. 为 厚 置 备 置 零 虚拟 磁盘 初始 化 之 前 未 写 入 的 文件 块 


3) 硬件 辅助 锁定 : 硬件 辅助 锁定 也 称 为 原子 级 的 测试 和 设置 (Atomic Test-and-Set，ATS) ， 可 以 将 锁 机 制 的 负载 分 流 
到 阵列 。 这 可 以 显著 提高 共享 数据 存储 的 vSphere 集 群 的 可 扩展 性 ， 而 且 不 会 影响 VMFS 共 享 存储 池 元 数据 的 完整 性 。ATS 锁 机 
制 可 以 用 来 修改 磁盘 扇 区 ， 一 旦 成 功 ，vSphere 主 机 即 可 在 VM FS 数据 存储 上 实现 元 数据 更 新 。 例 如 ， 这 包括 在 置 备 期 间 向 
VMDK 分 配 空间 ， 因 此 需要 更 新 元 数据 中 的 特定 特性 以 反映 新 的 文件 大 小 。 值 得 注意 的 是 ， 在 vSphere 5 中 引入 的 初始 VAAI 版 
本 中 ，ATS 基 本 类 型 在 每 个 存储 阵列 上 必须 以 不 同 的 方式 实现 ; 这 意味 着 你 将 有 一 个 不 同 的 ATS 操 作 码 ， 具 体 取决 于 存储 供应 
商 。 不 过 ，ATS 现 在 是 T10 标 准 SCSI 命 令 ， 使 用 常见 的 0x89 操 作 码 COMPARE AND WRITE。 


4) 精简 置 备 冻结 : 此 基本 类 型 可 以 在 精简 置 备 的 卷 达到 特定 容量 利用 率 阔 值 时 ， 人 存储 系统 会 通知 vSphere 主 机 这 与 存储 阵 
列 上 的 可 用 物理 空间 有 何 关 联 。 启 用 此 基本 类 型 时 ， 主 机 可 以 采取 预防 措施 ， 通 过 暂停 可 能 会 受 影响 的 虚拟 机 来 维持 虚拟 机 的 完 


整 性 D 


5) 删除 状态 (无效 空间 回收 ) : (也 称 为 UNMAP 基 本 类 型 ) 允许 vsphere 主 机 告知 存储 阵列 : 虚拟 机 已 被 删除 或 迁移 到 
了 另 一 个 数据 存储 ， 以 前 被 虚拟 机 占用 的 空间 现在 可 以 回收 。SCSI UNMAP 命 令 执行 空间 回收 ， 存 储 阵列 可 以 准确 报告 精简 置 
备 数据 存储 的 空间 使 用 情况 ， 管 理 员 可 以 监控 和 准确 地 预测 未 来 的 存储 需求 。 该 基本 类 型 自首 次 在 vSphere 5.0 中 引入 以 来 , 已 
发 生 显著 的 变化 。 在 初始 版 本 中 ， 操 作 会 自动 执行 ， 因 此 在 虚拟 机 被 删除 或 从 某 个 数据 存储 进行 迁移 时 ， 会 立即 调用 UNMAP 基 
本 类 型 并 在 阵列 上 进行 空间 回收 。 但 这 种 方法 很 快 引 发 了 一 些 问题 ， 主 要 涉及 阵列 的 性 能 和 存储 系统 在 最 佳 时 间 段 回收 空间 的 功 
能 。 因 此 ，UNMAP 操 作 现 在 是 一 个 手动 过 程 。 


名 注意 在 建议 使 用 UNMAP 基 本 类 型 之 前 ， 有 几 个 重要 的 因素 需要 考虑 。 有 关 详 细 信息 可 以 参考 VMware 知识 库 文章 
2014849 。 


这 些 VAAI 基 本 类 型 需要 在 人 存储 阵列 和 vSphere 主 机 上 都 启用 。 黑 认 情 况 下 ，vSphere 本 机 启用 了 一 些 基本 类 型 ， 但 还 有 一 些 
可 能 需要 用 户 干预 。 


2.2.11 传统 存储 模型 一 一 VASA 1.0 


在 VMware vSphere 5 中 首次 引入 了 vSphere 存 储 感知 API (VASA) 功能 。VASA 提 供 了 一 组 AP1， 可 以 帮助 vCenter 
Server 识 别 所 支持 的 存储 阵列 能 够 提供 的 功能 。 


这 些 功能 可 能 包括 支持 的 RAID 类 型 、 存 储 层 精简 置 备 或 去 重 等 vCenter 内 发 布 的 特性 ， 它 们 可 以 帮助 vsphere 和 存储 管理 员 
针对 虚拟 机 放置 做 出 更 明智 的 决策 。 例 如 ， 它 提供 的 已 发 布 容量 可 帮助 管理 员 识 别 能 够 提供 RAID 5 保护 的 特定 磁盘 设备 。 


VASA 还 能 够 向 vSphere 的 配置 文件 驱动 的 存储 机 制 提供 存储 阵列 的 容量 信息 ， 此 机 制 用 于 确定 虚拟 机 所 在 的 存储 设备 是 否 
能 够 满足 负载 的 服务 级 别 存储 需求 。 此 外 ，VASA 还 向 SDRS 提 供 存储 阵列 的 信息 ， 帮 助 SDRS 实 现 与 支持 的 存储 系统 的 最 优 集 
成 。 

VASA 1.0 插 件 提供 了 从 vCenter Server 到 存储 阵列 的 可 见 性 ， 并 能 够 启用 前 面 强调 的 跨 平台 特性 。 然 而 ,我 们 在 后 续 章 节 
中 还 要 介绍 Virtual SAN 和 Virtual Volumes，VASA 2.0 中 支持 的 已 发 布 容 量 使 得 vCenter Server、vSphere 主 机 和 存储 设备 之 
间 的 协同 处 理 能 力 达 到 了 前 所 未 有 的 水 平 。 


图 2-33 展 示 了 VASA 1.0 中 的 特性 ， 它 能 帮助 vCenter Server 识 别 存储 阵列 支持 的 已 发 布 能 力 。 


2.2.12 VADP 和 VAMP 


下 面 还 要 重点 介绍 另外 两 个 vStorage API 功 能 ， 分 别 是 VMware vSphere Storage APl for Data Protection (VADP) 和 
vStorage APl for Multipathing (VAMP) 。 


VADP 是 可 以 在 vsphere 虚 拟 机 上 执行 备份 和 恢复 操作 的 API。VADP 首 次 在 vSphere 4 中 引入 ， 用 来 取代 VMware 
Consolidated Backup (VCB) 框架 。 然 而 ，VADP 本 身 不 执行 数据 保护 操作 。 它 只 是 一 个 框架 ， 负 责 为 VMware 或 第 三 方 应 用 
提供 用 来 执行 备份 和 恢复 操作 的 机 制 。 因 此 ，VADP 会 要 求 安装 来 自 VMware 或 第 三 方 的 额外 软件 备份 产品 。 
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传统 VASA 1.0 支 持 的 存储 阵列 


图 2-33 VASA 1.0-vCenter Server 与 存储 阵列 集成 


VADP 的 主要 用 途 是 在 一 个 集中 的 备份 服务 器 上 备份 VSphere 虚 拟 机， 而 不 需要 在 客户 机 操作 系统 上 安装 备份 代理 。 此 
外 ，VADP 不 需要 在 每 个 客户 机 虚拟 机 内 执行 备份 过 程 ， 因 此 ， 它 能 将 备份 负载 从 虚拟 化 层 分 流 ， 释 放 了 主机 资源 。 


VADP 的 一 个 主要 特性 是 块 修改 跟踪 (Changed Block Tracking，CBT) 。 利 用 块 修改 跟踪 ，VMkerneI 可 以 跟踪 虚拟 机 磁 
盘 上 发 生 更 改 的 每 个 数据 块 ， 通 过 识别 和 定位 需要 备份 的 数据 块 来 实现 更 高 效 的 增 量 备份 。 这 种 数据 备份 方法 有 助 于 减少 备份 时 
间 ， 并 缩短 将 恢复 数据 复制 到 各 个 站 点 所 需 的 时 间 。 但 这 很 可 能 意味 着 虚拟 机 恢复 将 需要 更 长 的 时 间 。 


VAMP 提 供 了 来 自 VMware 的 一 组 API， 虽 在 帮助 控制 vSphere 主 机 和 存储 阵列 之 间 的 MO 路 径 选 择 。 这 些 多 路 径 API 通 过 增 
加 比 存储 设备 使 用 的 默认 路 径 策略 更 高 的 智能 ， 可 以 提供 存储 路 径 故 障 切 换 并 优化 存储 /MO 吞吐 量 。 


要 在 存储 设计 中 使 用 VAMP， 存 储 供应 商 的 阵列 必须 内 置 对 此 功能 的 支持 。vStorage APls for Multipathing (VAMP) 通 
过 VMkernel 中 的 vSphere 框 架 提供 ; 该 框架 被 称 为 可 揪 拔 的 存储 架构 (Pluggable Storage Architecture，PSA) ， 将 在 第 3 章 
中 详细 介绍 。 


2.2.13 从 SAN 引 导 


配置 主机 从 SAN 引 导 时 ， 虚 拟 化 层 的 引导 映像 存储 在 SAN 人 存储 系统 中 的 单个 UN 上 。 打 开 主 机 电源 时 ， 它 通过 SAN 从 LUN 
引导 ， 而 不 使 用 任何 本 地 介质 。 从 SAN 引 导 的 环境 可 以 为 基础 架构 带 来 许多 优势 ， 包 括 提供 一 个 完全 无 状态 的 计算 环境 。 然 


而 ， 它 的 支持 过 程 可 能 比较 复杂 ， 需 要 特别 的 实施 配置 。 另 外 ， 在 某 些 用 例 中 ， 你 不 应 该 对 ESXi 主 机 使 用 从 SAN 引 导 (例如 ， 
同一 硬件 上 在 使 用 Virtual SAN 时 ) 。 


在 决定 从 SAN 引 导 是 否 适 合 环境 时 ， 请 考虑 以 下 列 出 的 各 项 优点 和 缺点 。 


1. 从 SAN 引 导 的 优点 


1) 功 耗 少 、 发 热 少 、 状 态 少 : 从 服务 器 移 除 内 部 硬盘 意味 着 它们 的 功 耗 更 少 ， 产 生 的 热量 也 更 少 。 因 此 ， 它 们 的 装 箱 密度 
可 以 更 高 ， 局 部 冷却 需求 也 会 减少 。 在 没有 本 地 存储 的 情况 下 ， 服 务 器 实际 上 就 成 了 一 种 无 状态 的 计算 资源 ， 可 以 直接 插 拔 和 蔡 
换 ， 而 不 必 担心 本 地 存储 的 数据 。 


2) 减少 服务 器 的 资本 支出 : 通过 从 SAN 引 导 ， 组 织 将 可 以 购买 相对 便宜 一 些 的 无 盘 服 务 器 。 虽 然 服务 器 仍然 需要 可 引导 的 
HBA 卡 ， 但 可 以 通过 减少 存储 控制 器 的 成 本 来 进一步 节省 费用 。 


3) 更 有 效 地 利用 存储 : 无 论 ESXi 操 作 系统 需要 多 少 存储 空间 ， 总 是 需要 超额 置 备 内 部 存储 来 容纳 它 。 使 用 从 SAN 引 导 方 案 
时 ， 只 需 为 引导 设备 配置 必需 的 容量 。 这 意味 着 大 量 主机 服务 器 将 可 以 从 一 个 更 小 的 物理 磁盘 进行 引导 。 


4) 高 可 用 性 : 具有 内 部 移动 组 件 的 旋转 硬盘 在 可 靠 性 方面 存在 一 些 限制 ， 因 此 去 除 对 内 部 硬盘 的 依赖 应 该 可 以 提供 更 高 的 
服务 器 可 用 性 。 服 务 器 将 仍然 依赖 硬盘 ， 但 SAN 存 储 阵列 更 强大 、 更 可 靠 ， 并 内 置 了 更 大 的 元 余 空间 以 确保 服务 器 可 以 引导 。 


5) 快速 的 灾难 恢复 : 包括 引导 信息 在 内 的 数据 可 以 非常 方便 地 从 主 站 点 上 的 一 个 SAN 复 制 到 位 于 远程 灾难 恢复 站 点 上 的 另 
一 个 SAN。 这 可 能 意味 着 ， 在 发 生 故 障 时 ， 服 务 器 应 该 在 远程 站 点 上 快速 地 启动 并 运行 。 


6) 通过 更 集中 的 服务 器 管理 减少 运 维 文 出 : 从 SAN 引 导 大 大 简化 了 操作 系统 补丁 和 升级 程序 的 管理 。 例 如 ， 你 可 以 在 SAN 
上 准备 并 克隆 升级 的 操作 系统 映像 ， 然 后 停止 各 个 服务 器 并 引 向 新 的 引导 映像 ， 最 后 重新 引导 服务 器 ， 整 个 过 路 中 服务 器 只 需 极 
短 时 间 的 停机 。 新 硬件 也 可 以 从 基于 SAN 的 映像 添加 ， 并 且 不 需要 任何 以 太 网 网 络 连接 。 你 可 以 克隆 LUN 以 用 于 测试 升级 、 服 
务 包 和 其 他 补丁 或 者 用 来 对 应 用 进行 故障 排查 。 


7) 更 出 色 的 性 能 : 在 某 些 情况 下 ，SAN 上 高 转速 的 高 性 能 磁盘 可 以 提供 比 本 地 磁盘 更 好 的 操作 性 能 。 


2. 从 SAN 引 导 的 缺点 


1) 兼容 性 问题 : 某 些 操作 系统 、 系 统 BIOS、 尤 其 是 HBA， 可 能 不 支持 从 SAN 引 导 。 升 级 这 些 组 件 可 能 会 对 本 地 引导 或 
vSphere Auto Deploy 带 来 好 处 。 


2) 单 点 故障 : 如 果 一 个 服务 器 硬盘 出 现 故 障 ， 会 导致 该 服务 器 的 系统 无 法 引导 。 然 而 ， 如 果 SAN 或 光纤 网 络 发 生 重大 问 
题 ， 可 能 会 导致 所 有 服务 器 都 无 法 引导 。 虽 然 这 种 情况 发 生 的 可 能 性 相当 小 ， 因 为 大 多 数 SAN 系 统 都 有 内 置 的 元 余 能 力 ， 但 仍 
然 值 得 注意 。 


3) 可 能 的 引导 过 载 : 如 果 大 量 服务 器 在 同一 时 间 尝 试 引导 (如 发 生 断 电 故 障 后 ) ， 这 可 能 会 超出 光纤 连接 的 承受 能 力 。 在 
这 种 情况 下 ， 引 导 可 能 会 延迟 ， 或 者 如 果 超 时 ， 某 些 服 务 器 可 能 完全 无 法 引导 。 为 了 防止 出 现 这 种 情况 ， 可 以 确保 在 所 采用 的 设 
计 中 将 引导 LUN 尽 可 能 分 布 在 多 个 存储 控制 器 上 ， 而 且 各 个 光纤 连接 绝 不 会 过 载 ， 也 不 会 超出 供应 商 的 建议 限制 。 


4) 引导 依赖 性 : SAN 存 储 和 阵列 基础 架构 必须 在 运行 才能 引导 vSphere 主 机 。 在 数据 中 心 完 全 停机 之 后 ， 必 须 先 启动 和 运 
行 这 些 组 件 ， 然 后 再 重新 启动 主机 服务 器 。 


5) 配置 问题 : 无 盘 服务 器 可 以 非常 方便 地 拔 出 并 更 换 ， 但 在 重新 引导 之 前 ， 必 须 对 它们 的 HBA 进 行 配置 以 指向 基于 SAN 的 


引导 设备 。 对 正在 运行 的 服务 器 更 换 热 交换 HBA 时 ， 可 能 会 发 生意 想不到 的 问题 。 但 如 果 HBA 被 配置 为 从 AN 引导， 服务 器 将 
可 以 继续 运行 ， 但 在 下 一 次 重新 启动 时 会 无 法 引导 。 


6) LUN 呈 现 问 题 : 根据 硬件 的 不 同 ， 你 可 能 会 发 现 一 些 服务 器 只 能 从 位 于 特定 LUN ID (如 LUN 0) 的 SAN 引 导 。 如 果 出 
现 这 种 情况 ， 你 必须 有 相应 机 制 来 呈现 唯一 的 LUN 一 一 可 以 用 来 引导 指定 的 服务 器 而 且 带 有 服务 器 希望 看 到 的 LUN ID。 这 通常 
是 旧版 本 中 的 问题 ， 应 该 不 会 影响 新 的 设计 和 实现 。 





7) 附加 复杂 性 : 毫 无 疑问 ， 从 SAN 引 导 要 比 提供 本 地 引导 设备 复杂 得 多 ， 这 增加 了 操作 风险 因素 。 随 着 IT 人 员 熟 悉 这 些 过 
程 ， 这 种 风险 会 减少 。 然 而 ， 在 采用 从 SAN 引 导 这 种 方法 的 早期 阶段 ， 不 应 忽视 出 现 问题 的 可 能 性 。 例 如 ， 从 SAN 引 导 这 种 配 
置 要 求 为 每 个 服务 器 设置 独立 的 光纤 分 区 ， 而 且 HBA/CNA 配 置 可 能 会 复杂 得 多 。 


8) 成 本 : SAN 人 存储 通常 比 本 地 存储 昂贵 ， 因 此 在 服务 器 人 存储 上 节约 的 成 本 通常 会 因为 需要 额外 的 存储 阵列 磁盘 而 被 抵消 。 
9) 存储 团队 开销 : 必须 针对 每 个 主机 服务 器 置 备 和 管理 SAN LUN， 这 会 给 存储 运 维 团队 带 来 许多 额外 工作 。 


10) 性 能 : 重负 载 VMkernel I/O 磁 盘 的 交换 周期 会 影响 虚拟 机 的 磁盘 性 能 ， 因 为 它们 会 将 相同 的 磁盘 I/O 通 道 共享 给 存储 
阵列 。 


11) Microsoft 集 群 : 在 vSphere 4 中 ， 使 用 Microsoft 集 群 (MSCS 或 故障 切换 集群 》 配置 的 虚拟 机 不 支持 从 SAN 引 导 这 种 
配置 。 


12) 暂 存 分 区 : ESXi 不 会 在 从 SAN 引 导 环 境 中 自动 创建 暂 存 分 区 ， 因 为 它 将 磁盘 视 为 远程 设备 。 暂 人 存 分 区 的 创建 可 以 通过 
手动 或 脚本 轻松 配置 ， 但 绝对 不 应 忽视 。 


2.2.14 ”传统 存储 模型 一 一 vSphere 存 储 策略 


在 vSphere 5 中 首次 引入 了 vSphere 存 储 配 置 文件 (Storage Profile) 的 概念 ， 随 后 在 vSphere 5.5 版 本 中 将 其 更 名 为 存储 
策略 。 


此 技术 是 VMware 配 置 文 件 驱 动 的 存储 机 制 的 基础 ， 其 目的 是 通过 利用 存储 功能 和 存储 配置 文件 实现 存储 逻辑 隔离 ， 以 确保 
向 虚拟 机 提供 符合 预先 指定 的 服务 质量 水 平 的 存储 资源 。 


存储 功能 是 一 种 存储 特性 ， 可 以 为 存储 资源 提供 可 用 性 、 宛 余 性 、 容 量 、 性 能 或 任何 其 他 特性 。 有 两 种 方法 可 以 发 布 
vCenter Server 内 的 存储 功能 。 第 1 种 是 系统 定义 的 功能 ， 在 存储 阵列 支持 VASA 1.0 的 情况 下 提供 (如 前 所 述 ) 。 第 2 种 是 根据 
存储 系统 支持 的 特性 ， 手 动 创建 并 呈现 用 户 定义 的 功能 。 但 请 注意 ， 一 个 数据 人 存储 同一 时 间 只 能 在 一 种 用 户 定 义 的 功能 和 一 种 系 
统 定义 的 功能 之 间 建 立 关 联 。 


存储 策略 用 于 将 定义 的 存储 功能 映射 到 虚拟 机 ， 具 体 来 说 ， 应 该 是 虚拟 磁盘 。 策 略 基 于 每 个 虚拟 磁盘 的 存储 需求 创建 ， 以 确 
保 虚拟 磁盘 具有 特定 的 存储 功能 。 


利用 此 功能 ，vSphere 管 理 员 能 够 基于 系统 定义 (通过 VASA 1.0) 或 用 户 定义 的 存储 功能 ， 标 识 诸如 容量 、 性 能 、 可 用 性 
和 宛 余 性 等 存储 功能 ， 并 将 它们 与 数据 存储 相关 联 。 定 义 好 这 些 功能 后 ， 可 以 创建 存储 策略 ， 在 与 虚拟 机 相关 联 之 前 反映 它们 的 
关联 技术 ， 如 第 1 层 、 第 2 层 和 第 3 层 。 采 用 这 种 机 制 ，vSphere 可 以 自动 将 负载 放置 到 满足 需求 的 数据 存储 上 ， 如 果 vCenter 
Server 发 现 某 个 虚拟 机 未 放置 到 正确 的 存储 类 型 上 ， 将 在 Web Client 用 户 界面 中 报告 这 一 情况 。 


正如 本 章 前面 所 强调 的 ， 随 着 Virtual SAN 和 Virtual Volumes 的 发 布 ， 此 功能 得 到 了 显著 增强 ， 促 进 了 基于 存储 策略 的 管 
理 机 制 ， 而 此 机 制 是 这 些 软件 定义 存储 产品 的 基础 。 


图 2-34 说 明了 此 机 制 如 何 组 合 以 便 提供 此 策略 驱动 的 存储 解决 方案 (将 在 后 面 的 章节 中 更 深入 地 讨论 这 种 解决 方案 ) 。 






VCenter 服 务 器 


与 虚拟 机 
a ee 关联 的 虚拟 
i ”机 配置 文件 





: 说 明 存储 
-要 求 的 虚拟 
机 配置 文件 


VASA 提 供 
一 或 用 户 定 义 
的 存储 功能 





图 2-34 传统 存储 策略 


2.2.15 _vSphere 中 的 分 层 存 储 设 计 模 型 
前 面 我 们 已 从 存储 阵列 和 vSphere 的 角度 讨论 了 分 层 存储 ， 在 本 部 分 中 ， 将 介绍 在 企业 或 服务 提供 商 的 虚拟 数据 中 心 设计 中 
应 该 如 何 结合 使 用 这 两 种 不 同 级 别 的 配置 。 


有 几 个 存储 设计 模型 可 供 传统 存储 架构 的 用 户 使 用 。 通 过 组 合 使 用 前 面 讨论 过 的 这 些 技术 ， 将 有 助 于 运 维 简 化 ， 例 
如 ，vSphere 存 储 策略 可 以 对 支持 存储 子 系统 的 存储 功能 进行 分 类 ， 而 SDRS 可 以 反映 存储 分 类 ， 如 第 1 层 、 第 2 层 和 第 3 层 。 通 过 
组 合 多 种 技术 ， 通 常 可 以 形成 一 种 灵活 的 解决 方案 来 满足 大 多 数 企 业 和 服务 提供 商 存 储 架构 的 需求 。 


接 下 来 ,我 们 将 介绍 3 个 示例 模型 ,展示 了 这 些 技术 和 客户 设计 因素 如 何 结合 ， 以 提供 不 同 的 架构 解决 方案 ， 每 种 方案 各 有 
优点 和 缺点 ， 需 要 单独 评估 。 


1. 分 层 存储 模型 1: 静态 存储 层 


如 图 2-35 所 示 的 第 1 个 模型 可 以 提供 静态 存储 层 ，vSphere 可 以 将 每 个 虚拟 机 放置 到 正确 的 存储 层 上 并 提供 服务 级 别 保证 。 
这 种 设计 要 求 每 个 存储 层 都 包含 特定 的 存储 功能 或 驱动 器 类 型 ， 并 且 在 整个 磁盘 池 中 是 一 致 的 。 在 此 典型 的 多 池 架 构 中 ， 将 使 用 
各 个 池 来 提供 相应 的 分 层 人 存储 功能 ， 这 在 底层 子 系统 中 是 一 致 的 。 

在 这 种 存储 模型 中 ， 不 需要 依赖 任何 基于 阵列 的 自动 分 层 机 制 ， 而 且 在 虚拟 机 的 整个 生命 周期 内 ， 所 有 块 都 位 于 正确 的 人 存储 
层 上 。 这 种 存储 模型 的 主要 优点 是 ， 它 可 以 将 一 组 LUN 呈 现 给 池 中 的 vsphere 主 机 ， 每 一 个 都 具有 一 致 的 、 可 预测 的 功能 。 


应 用 应 用 应 用 应 用 应 用 
操作 系统 操作 系统 振作 系统 区 损 作 系 统 操作 系统 
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2. 分 层 存储 模型 2: 混合 存储 层 
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存储 子 系统 


图 2-35 ”静态 存储 层 示例 模型 


在 第 2 个 模型 中 ， 我 们 使 用 了 一 个 并 发 混合 存储 层 ， 在 其 阵列 的 磁盘 子 系统 中 同时 包括 静态 分 层 和 动态 分 层 。 如 图 2-36 所 
示 ， 指 定 为 第 1 层 或 第 2 层 的 应 用 采用 了 来 自 静 态 分 层 池 的 LUN ， 通 过 底层 存储 的 块 性 能 保证 来 确保 一 致 的 服务 级 别 。 然 而 ， 如 
前 所 述 ， 第 3 层 和 第 4 层 存 储 由 单个 动态 自动 分 层 池 构 成 ， 这 使 得 存储 系统 的 自动 分 层 机 制 能 将 多 个 存储 层 作 为 单个 实体 进行 管 
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存储 子 系统 
图 2-36 混合 存储 层 示例 模型 
3. 分 层 存储 模型 3: 全 自动 分 层 环 境 


在 图 2-37 所 示 的 最 后 一 个 模型 中 ， 针 对 所 有 存储 使 用 了 完全 自动 化 的 架构 。 通 过 在 设计 中 采用 该 技术 ， 存 储 系统 的 自动 分 
层 机 制 可 以 动态 地 将 访问 较 少 的 块 移动 到 低 成 本 磁盘 层 ， 同 时 将 访问 较 频 繁 的 数据 移动 到 更 快 的 驱动 器 。 这 可 以 省 去 静态 存储 层 
通常 所 需 的 大 部 分 用 户 管理 和 干预 工作 ， 同 时 仍 能 维持 大 部 分 负载 的 峰值 性 能 。 


自动 分 层 池 (第 1 层 和 第 2 层 ) 自动 分 层 池 (第 3 层 和 第 4 层 ) 





存储 子 系统 
图 2-37 全 自动 分 层 示例 模型 


全 注 总 对 于 从 自动 分 层 存 储 置 备 的 LUN， 存 储 供 应 商 可 能 不 建议 在 虚拟 机 上 使 用 存储 I/ 〇 控制 (SIOC) 来 提供 I/O 控 
制 ， 尤 其 是 在 旧版 本 的 vVSphere 中 。 原 因 在 于 ， 存 储 I/O 控 制 注 入 程序 无 法 确定 自动 分 层 存储 的 功能 。 


表 2-23 概 述 了 在 评估 每 种 解决 方案 以 及 将 客户 需求 映射 到 最 合适 的 传统 存储 架构 选择 时 应 考虑 的 一 些 关 键 设计 因素 。 


表 2-23 ”存储 分 层 设 计 因素 


设计 因素 说 明 
可 用 性 所 有 设计 选项 对 可 用 性 没有 影响 ， 因 为 存储 阵列 为 这 两 个 选项 提供 相同 的 保护 
昂 管 理性 模型 1 简化 了 存储 性 能 问题 的 故障 排除 ， 但 增加 了 日 常 管理 运 维 开 销 
模型 1 基于 所 选 的 驱动 器 提供 了 性 能 保障 
性 能 对 于 另外 两 种 模型 ， 未 在 自动 分 层 环 境 中 使 用 存储 IO 控制 会 影响 性 能 ， 有 具体 取决 于 
存储 供应 商 和 vSphere 版 本 
可 恢复 性 所 有 选项 都 提供 相同 的 数据 恢复 功能 
安全 性 所 有 选项 都 提供 相同 的 安全 性 


2.2.16 子 LUN 系 统 访问 


关于 子 LUN 系 统 访问 ， 需 考虑 以 下 问题 : 存储 子 系统 是 如 何 设计 的 ”磁盘 池 是 专用 于 vSphere 负 载 并 在 单个 vCenter Server 


内 管理 ， 还 是 与 其 他 非 vSphere 负 载 共 享 ? 


仅 有 两 个 与 存储 子 系统 访问 相关 的 选项 ， 称 为 VMware 专用 或 共享 。 在 这 种 语 境 中 ， 共 享 是 指 由 其 他 非 vSphere 主 机 读 写 的 
磁盘 子 系统 ， 例 如 ， 基 于 Microsoft Windows 或 Linux 的 物理 负载 ， 这 种 情况 下 操作 系统 都 直接 安装 在 裸 机 硬件 上 。 


1. 方 案 1: VMware 专用 磁盘 子 系统 


磁盘 子 系统 已 限制 为 仅 处 理 虚拟 负载 并 由 单个 vCenter Server 进 行 管理 ， 所 有 Il/O 均 可 作为 单一 实体 。 这 被 是 VMware 给 出 
的 最 佳 做 法 和 建议 配置 ， 是 最 佳 设 计 选择 。 此 设计 意味 着 ， 在 必要 的 时 候 ，vCenter Server 可 以 准确 衡量 平台 的 延迟 与 MO 统 
计 ， 人 存储 MO 控 制 特性 可 以 设置 目标 并 调整 特定 虚拟 机 的 磁盘 队列 长 度 ， 如 图 2-38 所 示 。 





VMware 专用 存储 子 系统 


图 2-38 VMware 专 用 磁盘 子 系统 


2. 方 案 2: VMware 共享 磁盘 子 系统 


在 第 2 个 示例 中 ， 我 们 可 以 看 到 ， 底 层 磁 盘子 系统 用 于 向 非 vCenter Server 管 理 的 其 他 外 部 负载 提供 共享 存储 ， 如 图 2-39 所 
示 。 使 用 存储 /O 控 制 时 ， 由 于 在 系统 上 检测 到 非 托管 的 /O， 这 种 方法 很 可 能 会 对 虚拟 负载 产生 负面 影响 。 通 常会 导致 虚拟 机 
负载 受到 限制 ， 而 允许 非 托管 的 外 部 负载 使 用 更 多 MO， 还 常常 会 导致 生成 错误 消息 ， 并 且 会 在 vCenter Server Web Client 的 
用 户 界面 上 显示 以 下 消息 来 通知 管理 员 : Non-VI workload detected on the datastore。 


需要 考虑 的 另 一 个 设计 因素 是 ， 提 供给 vSphere 主 机 且 具 有 外 部 负载 的 底层 子 系统 的 共享 会 显著 增加 排查 存储 性 能 问题 时 的 


主要 原因 是 ，VMware 建 议 在 所 有 数据 存储 上 启用 存储 |/O 控 制 。 如 果 数 据 存 储 所 在 的 存储 介质 (无 论 是 内 存盘 还 是 机 械 
盘 ) 共享 给 非 vSphere 负 载 使 用 的 卷 ， 这 将 导致 vsphere 检 测 到 数据 人 存储 响应 时 间 超 出 冰 值 ， 并 会 发 出 此 前 显示 的 警告 信息 。 然 
而 ， 由 于 存储 MO 控制 能 够 检测 到 外 部 负载 ， 并 且 只 要 在 人 存在 外 部 负载 并 出 现 超出 阔 值 的 情况 下 ， 人 存储 1/O 控 制 就 会 通过 减少 通 
常 的 限制 行为 来 智能 地 与 干扰 负载 竞争 。 





图 2-39 ”VMware 共享 磁盘 子 系 统 


值得 注意 的 是 ， 在 旧版 本 的 存储 |/O 控 制 功 能 中 ， 这 种 行为 没有 那么 智能 ， 反 而 会 导致 vSphere 平 台 限制 ESXi 负 载 ， 并 评估 
数据 存储 以 确保 具有 最 高 份额 的 应 用 能 够 优先 获得 I/O 访 问 ， 结 果 是 |/O 响 应 时 间 变 得 更 低 。 但 是 ， 这 种 限制 很 可 能 是 不 需要 且 
不 适用 的 ， 因 为 导致 争 用 的 负载 并 非 由 存储 |/O 控 制 进行 管理 。 因 此 ， 在 这 些 早期 版 本 的 存储 I/O 控 制 中 ， 这 种 限制 会 导致 外 部 
负载 获得 更 多 Il/O 和 更 多 带 完 ， 而 vSphere 负 载 会 持续 获得 越 得 更 少 的 |/O 和 带 完 。 需 记 住 的 一 点 是 ， 如 果 只 是 客户 需要 更 新 存储 
平台 和 存储 设计 ， 则 不 一 定 要 部 署 最 新 的 vSphere 软 件 版 本 。 


虽然 新 版 本 的 存储 |/O 控 制 更 智能 ， 但 设计 建议 始终 为 vSphere 虚 拟 机 负载 提供 专用 VMware 子 系统 ， 以 避免 外 部 干扰 并 简 
化 性 能 故障 排查 活动 。 


第 3 章 ”结构 连接 和 人 存储 MO 架构 


结构 连接 (Fabric Connectivity) 是 指 vSphere 主 机 之 间或 主机 与 存储 设备 之 间 的 互 连 ， 有 具体 取决 于 实际 的 架构 。 本 章 仅 关 
注 主机 和 共享 存储 设备 之 间 的 连接 ， 并 且 是 传统 存储 基础 架构 (第 2 章 ) 和 Virtual Volumes (第 8 章 ) 所 必需 的 。 第 4 章 将 详细 
介绍 VMware Virtual SAN 所 需 的 主机 间 的 连接 。 


ESXi 主 机 和 存储 设备 之 间 的 连接 和 通信 通过 物理 组 件 和 接口 协议 实现 。 物 理 组 件 是 指 主 机 连接 到 存储 使 用 的 硬件 。 连 接 主 机 
和 存储 设备 之 间 的 物理 组 件 有 3 类 : 主机 接口 设备 、 交 换 机 端口 和 电缆 。 


主机 通过 主机 接口 设备 或 主机 适配器 连接 到 存储 设备 。 主 机 接口 设备 包括 主机 总 线 适配器 (HBA) 和 网 络 接口 卡 (NIC) 。 
主机 总 线 适 配器 使 用 专用 集成 电路 (ASIC) 板 ， 可 在 主机 和 存储 器 之 间 执 行 V/O 接 口 指令 ， 从 而 卸载 与 仓储 协议 相关 的 额外 CPU 
MO 处 理 开 销 。 典 型 的 vSphere 主 机 设计 可 以 包括 多 个 HBA， 为 存储 结构 以 及 存储 设备 提供 更 高 的 性 能 和 宛 余 连接 。 


端口 是 专门 的 插口 ， 用 于 连接 主机 和 外 部 设备 。HBA 包 含 一 个 或 多 个 端口 ， 将 主机 连接 到 交换 网 络 ， 然 后 连接 到 存储 设 
备 。 主 机 使 用 电线 通过 铜 介 质 或 光纤 介质 连接 到 外 部 设备 。 


协议 用 于 主机 和 存储 器 之 间 的 通信 。 协 议 在 源 和 目的 之 间 通 过 接口 设备 或 控制 器 来 实现 通信 。 主 机 到 存储 最 常见 的 通信 接口 
协议 是 : 光纤 通道 或 互联 网 协议 (IP) 。 最 常见 的 数据 中 心 部 署 使 用 的 协议 包括 : 光纤 通道 (FC) 、 以 太 网 光纤 通道 
(FCoE) 、 互 联网 小 型 计算 机 系统 接口 (iSCSI) 和 网 络 文件 系统 (NFS) 。 


使 用 基于 块 的 存储 协议 时 ， 人 存储 连接 和 光纤 架构 通常 被 称 为 存储 区 域 网 络 (SAN) 。SAN 为 共享 存储 设备 提供 了 一 个 高 速 
专用 网 络 ， 使 存储 能 够 跨 多 个 主机 服务 器 实现 共享 ， 便 于 人 存储 整合 。 与 直 连 存储 架构 相 比 ， 可 以 提高 存储 资源 的 利用 率 ， 减 少 组 
织 需 要 购买 和 管理 的 物理 磁盘 总 量 。 同 样 ， 采 用 这 种 模式 ， 人 存储 管理 变 得 集中 化 ， 不 需要 维护 大 量 的 直 连 存储 ， 进 一 步 降低 了 数 
据 管理 的 运 维 成 本 。 通 过 SAN ， 组 织 还 能 够 把 地 理 上 分 散 的 服务 器 和 人 存储 连接 在 一 起 。 此 外 ， 它 可 以 有 效 地 满足 人 存储 增长 的 需 
求 ， 在 提供 有 效 的 维护 和 数据 保护 的 同时 ， 具 有 更 好 的 规模 经 济 效益 。 


SAN 的 两 种 最 常见 的 部 署 方式 是 : 光纤 通道 SAN 和 IP SAN。 光 纤 通 道 SAN 使 用 光纤 通道 协议 作为 vSphere 主 机 和 存储 设备 
之 间 数 据 、 命 令 和 状态 信息 的 传输 协议 。 同 样 ，IP SAN 使 用 iSCSI 协议 在 主机 和 存储 设备 之 间 进 行 存储 通信 。 


尽管 数据 中 心 基于 超 融 合 基础 架构 (HCI) 的 解决 方案 在 不 断 地 增加 ， 但 在 可 预见 的 未 来 ， 大 多 数 数据 中 心 还 是 基于 SAN 和 
共享 存储 的 需求 。 因 此 ， 存 储 架构 师 和 存储 运 维 团 队 都 必须 深入 了 解 这 些 共享 存储 的 技术 。 本 章 的 余下 部 分 将 介绍 vSphere 支 持 
的 存储 协议 、 如 何 与 vSphere 集 成 ， 以 及 构建 存储 解决 方案 时 需要 考虑 的 天 键 设计 因素 等 。 


3.1 ”光纤 通道 SAN 


在 大 多 数 企 业 和 存储 提供 商 的 环境 中 ，vSphere 的 非 本 地 存储 通常 通过 可 访问 的 光纤 通道 ， 存 储 区 域 网 络 和 LUN 进 行 设置 。 
当然 ， 也 可 以 在 本 地 或 混合 协议 的 存储 环境 中 ， 使 用 iSCSI 协 议 、NAS 协 议 、FCoE 协 议 或 裸 磁 盘存 储 设备 来 实现 。 


3.1.1 “光纤 通道 协 i 


光纤 通道 协议 是 企业 和 服务 提供 商 构 建 数据 中 心 时 经 常 使 用 的 一 种 完善 的 、 基 于 块 的 协议 。 它 具有 非常 高 的 性 能 ， 提 供 4、 
8、16Gb/s， 甚 至 20Gbys 的 速率 进行 数据 传输 ， 为 存储 数据 访问 提供 坚实 和 可 靠 的 基础 。 光 纤 通 道 协议 需要 配置 独立 的 专用 存 
储 网 络 ， 通 常 以 高 可 用 和 元 余 的 方式 设计 ， 使 成 本 高 晶 ， 同 时 ， 增 加 了 数据 中 心 管理 和 运 维 的 复杂 度 。 


尽管 成 本 和 复杂 度 增 加 了 ， 但 光纤 通道 SAN 仍 然 能 够 有 效 地 满足 企业 IT 组 织 和 服务 提供 商 不 断 增加 的 存储 扩展 需求 ， 并 且 比 
IP 存 储 具有 更 好 的 规模 经 济 效益 。 同 时 ， 光 纤 通 道 SAN 还 提供 更 加 有 效 的 且 针 对 数据 的 维护 、 运 维和 保护 等 功能 。 


光纤 通道 的 高 速 网 络 技术 ， 运 行 在 高 速 光纤 电 编 或 串 行 铜 缆 上 ， 虽 在 满足 服务 器 和 高 速 智能 人 存储 系统 之 间 更 快 的 数据 传输 需 
求 。T11 技 术 委员 会 负责 光纤 通道 接口 标准 的 制定 ， 该 委员 会 是 国际 信息 技术 标准 委员 会 (INCITS) 下 的 一 个 工作 组 。 


1. 光 纤 通 道 协议 层 


许多 读者 已 经 很 熟悉 国际 标准 化 组 织 (1SO) 制定 的 开放 式 系 统 互联 通信 参考 (OSI) 模型 ， 它 将 电信 或 计算 系统 的 通信 功 
能 划分 为 七 层 : 物理 层 ， 数 据 链 路 层 ， 网 络 层 ， 传 输 层 ， 会 话 层 ， 表 示 层 和 应 用 层 。 


OSI 模 型 的 层次 划分 能 够 让 通信 协议 更 加 容易 理解 。 虽 然 光纤 通道 不 同 于 OSI 的 七 层 划 分 ， 但 它 遵循 类 似 的 五 层 协 议 模型 ， 
如 图 3-1 所 示 。 表 3-1 中 简要 描述 了 每 个 层 ， 以 及 每 层 的 主要 功能 。 
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图 3-1 ”光纤 通道 协议 层 
表 3-1 光纤 通道 协议 层 


光纤 通道 层 功 能 


定义 了 物理 介质 ， 包 括 连接 器 、 电 缆 、 发 射 器 和 接收 器 ， 并 支 持 各 种 数据 速率 。 信 令 、 介 


FC-0 天 » LA A/ 人 三 : 
质 规 格 、 接 收 方 和 发 送 方 规格 也 包含 在 此 层 
RG] 定义 传输 协议 和 链 路 维护 ， 利 用 8B/10B 编码 / 解码 方法 ， 改 善 传 输 特性 ， 增 强 错误 恢复 能 力 
证 定义 节点 通信 的 规则 、 序 列 管理 、 交 换 管 理 ， 包 括 数 据 帧 、 帧 排序 、 流 控制 和 服务 等 级 。 
此 外 ,登录 / 注销、 拓扑、 分 段 和 重组 都 在 FC-2 处 理 
定义 一 组 通用 服务 ， 如 一 个 节点 上 多 个 端口 的 服务 ， 并 支持 高 级 功能 (如 RAID)。FC-3 仍 
FC-3 Dagens 
在 建设 中 
定义 上 级 协议 (ULP) 之 间 的 接口 模型 ， 
e 小 型 计算 机 系统 接口 (SCSI-3 ) 
e 互 联网 协议 (IP) 
e 高 性 能 并 行 接口 (HIPPI) 
ji 高 性 能 并 行 接 


。 异步 传输 模式 适应 层 5 (ATM-AAL5 ) 
e 智 能 外 设 接口 3 (IPI-3 )( 磁 盘 和 磁带 ) 
e 单 字 节 命令 码 集 (SBCCS ) 

。 其 他 





可 以 将 FC-0 和 FC-1 与 OSI 模 型 的 物理 层 进 行 类 比 ， 用 来 定义 物理 介质 。FC-2 被 定义 为 介质 访问 控制 (MAC) 层 ， 它 是 数据 
链 路 层 的 下 半 部 分 。FC-3 是 具有 多 个 端口 (例如 条 带 化 ， 同 时 从 所 有 端口 传输 数据 以 增加 带宽 ) 的 设备 和 大 量 未 定义 的 服务 。 
最 后 ，FC-4 定 义 了 其 他 更 为 成 熟 的 、 更 高 层 协 议 映 射 到 光纤 通道 上 ， 并 通过 光纤 通道 传输 。 


2. 光 纤 通道 架构 


正如 企业 数据 网 络 已 经 通过 以 太 网 和 IP 标 准 化 了 一 样 ， 企 业 组 织 和 云 服务 提供 商 的 存储 区 域 网 络 通常 通过 光纤 通道 来 实现 。 


光纤 通道 协议 映射 很 多 现 有 的 协议 帧 进行 传输 。 这 些 协议 包括 : 
. 小 型 计算 机 系统 接口 (SCSI) 
.高 性 能 并 行 接口 (HIPPI) 
` 企业 系统 连接 (ESCON) 
. 光纤 连接 (FICON) ， 它 替代 ESCON ， 作 为 IBMZ 系 列 大 型 机 的 光纤 通道 实现 
异步 传输 模式 (ATM) 


: 互联 网 协议 (IP) 
3. 光 纤 通 道 SAN 的 组 件 


在 光纤 通道 SAN 环 境 中 ，ESXi 服 务 器 通过 专用 光纤 通道 网 络 访问 磁盘 阵列 ， 该 网 络 通常 是 双 元 余 结构 设计 ， 如 图 3-2 所 示 。 


主机 组 件 HBAO j HBAl HBAO 里 司 HBA1 
-有 时 A 
Se oO~、_ i oO 2 


控制 器 B 


存储 阵列 前 端 


图 3-2 ”光纤 通道 组 件 拓扑 





存储 组 件 





虽然 SAN 的 拓扑 可 能 不 同 ， 但 根据 设计 的 需求 ， 所 有 主机 使 用 服务 器 的 HBA 卡 连接 到 两 个 SAN 网 络 上 。SAN 网 络 作 为 两 个 
独立 的 实体 进行 管理 并 彼此 隔离 。HBA 卡 具有 4、8 和 16Gb/s 三 种 硬件 配置 ， 因 此 在 设计 中 4 个 或 更 多 HBA 的 配置 并 不 常见 。 


如 图 3-2 所 示 ， 光 纤 通 道 SAN 的 组 件 可 以 分 为 3 类 ， 每 种 类 别 将 在 后 面 做 详细 地 描述 。 


主机 组 件 


:网络 组 件 
: 存储 组 件 
(1) 主机 组 件 


SAN 的 主机 组 件 由 主机 服务 器 ,或 更 具体 地 说 是 由 HBA 组 件 组 成 ， 它 将 服务 器 物理 地 连接 到 SAN 结 构 上 。HBA 位 于 独立 的 
主机 服务 器 上 ， 连 接 每 台 主机 到 存储 网 络 。 特 定 供应 商 的 HBA 驱 动 程序 运行 在 主机 ESXi 服 务 器 上 ， 通 过 该 机 制 ， 虚 拟 化 层 程序 
与 HBA 设 备 进行 通信 。 


存储 和 主机 服务 器 之 间 的 |l/O 和 物理 连接 由 HBA 提 供 。 存 储 还 可 以 通过 直接 连接 或 其 他 存储 网 络 技术 来 实现 和 主机 服务 器 的 
连接 。HBA 还 提供 服务 器 CPU 御 载 功 能 ， 这 个 功能 对 释放 vSphere 主 机 服务 器 的 CPU 和 内 存 、 执 行 虚 拟 机 和 应 用 的 处 理 任务 至 关 
重要 。HBA 是 主机 服务 器 存储 网 络 的 一 部 分 ， 实 现 高 可 用 和 存储 管理 功能 ,包括 SAN 管 理 、 负 载 均衡 、 故 障 切 换 和 存储 管理 。 
实际 上 ， 主 机 适配器 卡 是 服务 器 内 部 总 线 与 外 部 存储 网 络 通信 的 接口 。 


除了 适配器 卡 之 外 ， 供 应 商 还 提供 一 个 设备 驱动 程序 ， 允 许 ESXi 操 作 系统 识别 该 设备 ， 并 作为 内 核 模 块 加载 。 如 果 该 设备 驱 
动 程序 尚未 在 主机 主板 上 执行 ， 还 可 以 执行 协议 转换 或 其 他 类 似 的 功能 。 光 纤 通道 HBA 在 物理 和 数据 链 路 级 别提 供 持续 可 靠 通 
信 的 能 力 ， 对 存储 基础 架构 建设 至 关 重 要 。 


因此 ， 为 了 实现 HBA 的 高 可 用 ， 大 多 数 设计 在 每 个 服务 器 中 至 少 使 用 两 个 主机 端口 。 根 据 所 选择 的 服务 器 硬件 类 型 及 尺 
寸 ， 通 常 有 两 种 设计 考量 : 


: 单 端口 、 双 端口 或 四 端口 HBA 
.两 个 或 多 个 单 端口 HBA 


然而 ,刀片 系统 通常 使 用 专 有 的 硬件 ， 仪 配置 单个 适配器 卡 ， 导 致 可 能 无 法 在 硬件 层 实现 匈 余 。 因 此 ， 在 条 件 允 许 的 情况 
下 ， 考 虑 采用 两 个 或 多 个 独立 的 HBA 设 备 ， 在 设计 中 实现 元 余 和 高 可 用 。 


(2) 网 络 组 件 


网 络 组 件 由 SAN 的 网 络 和 互 连 设备 组 成 ， 所 有 主机 通过 SAN 网 络 连 接 到 SAN 上 的 存储 设备 。SAN 网 络 可 以 由 以 下 网 络 组 件 
组 成 : 


. 光纤 通道 集线器 

: 光纤 通道 边缘 交换 机 

. 导向 器 级 (Director Class) 光纤 交换 机 
数据 路 由 器 

.SAN 电缆 

. 通信 协议 


光纤 通道 集线器 是 传统 设备 ， 在 现在 的 SAN 网 络 设计 中 很 少 涉及 ， 以 前 常常 在 FC-AL 中 用 作 通 信 设 备 。 集 线 器 连接 节点 时 采 
用 逻辑 环 路 结构 或 物理 星 形 拓扑 结构 。 因 为 数据 必须 传输 通过 所 有 的 连接 点 ， 因 此 所 有 的 节点 共享 环 路 。 由 于 光纤 交换 机 具有 更 
低 的 成 本 和 更 高 的 性 能 ， 因 此 集线器 通常 不 在 光纤 通道 SAN 设 计 考 虑 范围 内 。 


光纤 通道 交换 机 比 集线器 更 智能 ， 并 且 可 以 将 数据 从 一 个 物理 端口 直接 路 由 到 另 一 个 物理 端口 。 因 此 ， 使 用 SAN 交 换 机 为 
SAN 网 络 提供 连接 点 ， 连 接 服务 器 、 存 储 设备 和 其 他 交换 机 。 而 且 ，SAN 交 换 机 的 类 型 、 设 计 特征 、 端 口 容 量 、 香 叶 量 、 性 
能 、 容 错 以 及 互联 的 方式 都 有 助 于 SAN 网 络 拓扑 设计 和 整体 架构 设计 。 


光纤 通道 交换 机 的 功能 与 传统 的 网 络 交 换 机 类 似 ， 它 们 都 通过 增加 互 连 设备 的 数量 提供 更 多 的 带宽 和 可 扩展 的 性 能 。 而 且 ， 
就 像 以 太 网 交换 机 一 样 ， 光 纤 通 道 设备 的 端口 数量 和 类 型 也 不 同 。 可 以 通过 连接 多 个 交换 机 的 方式 ， 形 成 能 够 支撑 大 量 主机 服务 
器 和 存储 系统 的 交换 机 结构 。 边 缘 交 换 机 是 有 效 的 机 架 顶 部 交换 机 ， 具 有 固定 的 端口 数量 ， 并 适合 模块 化 设计 。 模 块 化 的 交换 机 
通过 插 模 安装 额外 的 线 卡 的 方式 来 增加 端口 的 数量 ， 与 IP 网 络 硬 件 增加 端口 的 方式 大 致 相同 。 


导向 器 级 (Director class) 光纤 通道 交换 机 是 具有 更 多 端口 数 和 更 好 的 容错 功能 的 高 端 交换 机 。 导 向 器 的 架构 是 模块 化 
的 ， 通 过 在 主机 机 箱 中 插入 额外 的 线 卡 或 刀片 ， 增 加 其 端口 数 。 导 向 器 交换 机 始终 配置 元 余 的 组 件 保障 高 可 用 。 标 准 光纤 通道 和 
导向 器 交换 机 都 具有 管理 端口 ， 通 常 提供 以 太 网 端口 和 串 行 端口 ， 连 接 SAN 管 理 服务 器 。 

数据 路 由 器 作为 SCSI 和 光纤 通道 设备 之 间 通 信 的 智能 桥梁 ， 应 用 在 SAN 的 网 络 结构 上 。SAN 的 主机 服务 器 可 以 通过 网 络 上 
的 数据 路 由 器 访问 SCSI 磁 盘 或 其 他 设备 ， 如 磁带 库 。 

SAN 电 缆 通 常 是 特殊 的 光纤 电 纺 ， 铜 电费 只 是 偶尔 用 于 短 距离 连接 设备 ， 而 光纤 可 以 用 于 更 长 距离 的 连接 ， 因 为 它 具有 抗 
外 部 干扰 噪声 的 功能 。 每 条 链 路 连接 两 个 光纤 通道 端口 : 一 端 是 发 送 端口 (Tx) ， 另 一 端 是 接收 端口 (Rx) 。SAN 电 比 、 光 纤 
信号 、 供 应 商 和 光纤 交换 机 的 类 型 ， 这 些 都 是 设计 SAN 组 件 之 间 的 最 大 通信 距离 和 总 体 带 宽 值 所 需要 考虑 的 因素 。 

最 后 ,通信 协议 是 终端 端点 在 彼此 通信 时 使 用 的 一 组 特殊 的 规则 。 如 我 们 已 经 强调 的 ， 光 纤 通 道 SAN 是 大 多 数 企 业 IT 组 织 和 
服务 提供 商 使 用 的 存储 接口 协议 。 光 纤 通 道 协 议 在 开发 时 就 侧重 在 两 个 端口 之 间 使 用 串 行 |/O 总 线 电 缆 高 速 地 传输 数据 ， 因 此 ， 
光纤 通道 协议 是 存储 通信 的 理想 选择 。 

同时 ， 请 注意 ，IP 网 络 上 的 iSCSI 协 议 也 属于 SAN 协 议 ， 以 太 网 光纤 通道 协议 也 是 。 这 些 协 议 以 及 NFS 协 议 将 在 本 章 后 面 介 
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绍 。 


(3) 存储 组 件 


SAN 的 存储 组 件 就 是 存储 阵列 。 存 储 控制 器 直 连 或 通过 交换 网 络 为 vSphere 主 机 提供 与 存储 设备 的 前 端 连 接 。 存 储 控制 器 通 
过 后 端 连接 使 用 交换 机 或 总 线 架构 对 阵列 磁盘 进行 内 部 访问 ， 提 供 存 储 系统 的 RAID、 存 储 容器 和 虚拟 卷 等 功能 。 


智能 存储 系统 通常 由 4 个 关键 组 件 组 成 : 前 端 、 缓 存 、 后 端 和 物理 磁盘 ， 如 图 3-3 所 示 。 


物理 磁盘 后 端 磁盘 环 路 
固态 盘 固态 盘 固态 盘 


硬盘 ”硬盘 





图 3-3 ”物理 存储 阵列 架构 


图 3-3 是 物理 存储 阵列 体系 结构 的 一 个 示例 ， 随 着 存储 阵列 供应 商 的 不 同 ， 物 理 存 储 阵 列 的 体系 结构 会 有 很 多 变化 。 磁 盘 阵 


列 的 操作 系统 是 由 供应 商 提供 的 专 有 的 内 置 智能 操作 系统 ， 因 此 ， 磁 盘 阵列 在 设计 、 容 量 、 性 能 和 高 级 功能 方面 会 有 很 大 的 差 


一 
Te 


前 端 端口 的 主机 服务 器 接收 到 I/O 请 求 时 ， 先 通过 高 速 缓存 ， 然 后 再 交 由 后 端 磁盘 系统 进行 处 理 ， 便 于 数据 的 存储 以 及 物理 
磁盘 检索 所 需 的 数据 。 如 果 请 求 的 数据 在 缓存 中 ， 读 请 求 可 以 直接 从 缓存 中 读 取 数 据 。 在 大 多 数 的 存储 系统 中 ， 前 端 缓存 和 后 端 
组 件 通 常 集成 在 存储 控制 器 硬件 的 单个 主板 上 。 


此 外 ， 在 企业 存储 系统 中 ， 后 端 磁盘 通常 以 环 路 连接 。 存 储 控制 器 采用 的 后 端 环 路 技术 可 以 提供 以 下 几 个 优点 : 
. 高 速 访问 磁 胡 。 
. 能 够 向 环 路 中 添加 更 多 的 驱动 器 。 
: 驱动 器 双 端 口 连接 到 两 个 后 端 环 路 时 ， 可 以 从 多 个 环 路 宛 余地 访问 单个 驱动 器 。 
4. 光 纤 网 络 服务 


所 有 光纤 通道 交换 机 ， 无 论 任何 硬件 供应 商 ， 都 提供 了 一 组 通用 的 光纤 通道 标准 服务 。 这 些 服务 在 某 些 预定 义 的 地 址 可 用 ， 
如 图 3-4 所 示 。 


24 位 寻 址 空间 


24 位 端口 寻 址 方案 


图 3-4 光纤 通道 地 址 机 制 





5. 节 点 端口 
在 光纤 通道 网 络 中 ， 终 端 设 备 (如 主机 、 存 储 阵列 和 磁带 库 ) 都 被 称 为 节点 。 节 点 端口 提供 与 其 他 节点 通信 的 物理 接口 ， 每 


个 节点 都 可 以 作为 信息 的 源 地 址 或 目的 地 址 。 每 个 节点 需要 一 个 或 多 个 端口 提供 物理 接口 与 同一 光纤 网 络 上 的 其 他 节点 进行 通 
信 ， 这 些 端 口 集成 在 HBA 卡 和 存储 阵列 前 端 控 制 器 上 。 光 纤 通 道 环 境 中 ， 所 有 端口 都 使 用 全 双 工 数据 传输 模式 提供 发 送 (Tx) 
链 路 和 接收 (Rx) 链 路 。 


6 .光纤 通道 地 址 机 制 


节点 连接 登录 到 光纤 结构 中 时 ， 将 被 动态 地 分 配 光纤 通道 地 址 。 光 纤 通 道 地 址 具有 不 同 的 格式 ， 如 图 3-4 所 示 。 地 址 的 第 一 
个 字段 包含 登录 交换 机 的 域 ID。 域 ID 给 光纤 结构 中 的 每 台 交 换 机 提供 唯一 的 编号 。 这 个 域 ID 的 字段 有 8 位 ， 只 有 239 个 可 用 地 
址 ， 一 些 地 址 被 预定 义 为 特殊 地 址 ， 保 留 给 光纤 网 络 服务 使 用 。 例 如 ， 如 表 3-2 所 示 ，FFFFFC 预 留 给 名 称 服 务 器 ，FFFFFE 预 留 
给 光纤 网 络 登录 服务 。 区 域 1D 用 于 标识 连接 主机 服务 器 的 一 组 交换 机 端口 。 举 例 来 说 ， 线 卡 为 光纤 结构 上 的 交换 机 提供 附加 的 
端口 ， 就 是 具有 公共 区 域 ID 的 一 组 交换 机 端口 。 最 后 一 个 字段 为 端口 ID， 用 于 标识 组 内 的 唯一 端口 。 


表 3-2 光纤 网 络 服务 


光纤 网 络 服 务 描 述 
登录 服务 器 登录 服务 器 位 于 FFFFFE 的 预定 义 地 址 ， 并 在 节点 登录 的 初始 部 分 使 用 
名 称 服务 器 位 于 FFFFFC 的 预定 义 地 址 ， 负 责 节 点 端口 的 名 称 注 册 和 管 
名 称 服 务 器 每 台 交 换 机 将 其 名 称 服 务 器 信息 与 网 络 中 的 其 他 交换 机 交换 ，， RE 
分 布 式 名 称 服 务 


每 台 交 换 机 都 有 一 个 网 络 控制 器 位 于 FFFFFD 的 预定 义 地 址 。 网 络 控制 器 
为 光纤 结构 中 的 两 个 节点 端口 和 其 他 交换 机 提供 服务 。 网 络 控制 器 负责 管理 
和 分 发 注册 的 状态 更 改 通知 (RSCN) 到 网 络 控制 器 注册 的 交换 机 端口 。 如 果 
光纤 结构 发 生变 化 ， 则 通过 交换 机 将 RSCN 发 送 到 所 连接 的 端口 。 网 络 控制 
器 还 可 以 将 交换 机 注册 状态 更 改 ( SW-RSCN) 通知 光纤 结构 中 的 其 他 域 ( 交 
换 机 )。SW-RSCN 能 够 保证 光纤 结构 中 的 所 有 交换 机 具有 最 新 的 名 称 服务 器 

管理 服务 器 在 光纤 通道 中 的 预定 义 地 址 是 FFFFFA。 管 理 服务 器 分 布 在 光 
管理 服务 器 纤 结 构 中 的 每 台 交 换 机 上。 光纤 通道 SAN 管理 软件 通过 管理 服务 器 检索 设备 
相关 信息 ， 并 对 光纤 结构 中 的 设备 进行 管理 


网 络 控制 融 


基于 这 种 交换 式 光 纤 结构 的 寻 址 方案 ， 网 络 中 最 大 数量 的 节点 端口 的 计算 方式 如 下 : 239 个 域 x256 个 区 域 x256 个 端口 = 
15663104。 


7. 光 纤 通 道 端 口 命名 


交换 式 光纤 结构 中 的 端口 包含 以 下 类 型 ， 如 图 3-5 所 示 ， 有 具体 使 用 方式 取决 于 它们 如 何 与 其 他 设备 连接 。 








FC 
主机 端口 
EE rt 
图 3-5 光纤 通道 端口 命名 
- N_Portt: 结构 中 的 端点 。 该 端口 也 称 为 节点 端口 。 通 常 ， 它 是 连接 到 交换 式 光 纤 结 构 中 交换 机 的 主机 端口 (HBA) 或 
存储 阵列 端口 


“ 卫 _Port: 两 个 光纤 通道 交换 机 之 间 连 接 的 端口 。 该 端口 也 称 为 扩展 端口 。 光 纤 通道 交换 机 上 的 也 _Pott 连 接 到 同一 个 光纤 结 
构 中 另 一 个 光纤 通道 交换 机 的 也 _Port。 此 端口 类 型 用 于 创建 交换 机 之 间 的 链 路 (ISL) 。 


“FF_Potrt: 交换 机 连接 到 光纤 通道 拓扑 中 的 N_Port 的 端口 ， 也 被 称 为 光纤 结构 端口 。 
. G_Port: 交换 机 上 的 通用 端口 ， 可 以 用 作 EE_Pott 或 F_Port， 在 初始 化 期 间 自 动 确定 功能 类 型 。 
* NL_Port: 与 FC-AL 拓 扑 结合 使 用 的 端口 ， 有 时 称 为 节点 环 路 端口 。 


FL_Port: 连接 FC-AL 环 路 交换 机 的 端口 ， 也 称 为 光纤 网 络 环 路 端口 。 


8. 交 换 式 光纤 结构 的 登录 类 型 


光纤 结构 的 服务 有 3 种 登录 类 型 ， 具 体 取 决 于 它们 如 何 与 其 他 设备 进行 连接 。 


1) 光纤 结构 登录 (FLOGI) : 光纤 结构 登录 在 N_Port 和 F_Port 之 间 执 行 。 要 登录 到 光纤 结构 ， 节 点 用 预定 义 的 光纤 通道 地 
址 FFFFFE (光纤 结构 登录 服务 器 ) ， 将 具有 WWNN 和 WWPN 参 数 的 FLOGI 帧 发 送 到 登录 服务 器 。 之 后 ， 交 换 机 接受 登录 ， 返 
回 一 个 Accept (ACC) 帧 ， 为 节点 分 配 光纤 通道 地 址 。FLOGI 之 后 ，N_Port 立 即 向 交换 机 上 的 本 地 名 称 服 务 器 注册 ， 标 示 其 
WWNN、WWPN、 端 口 类 型 、 服 务 等 级 和 分 配 的 光纤 通道 地 址 。 在 N_Port 登 录 后 ， 可 以 查询 名 称 服务 器 数据 库 中 所 有 登录 端 
口 的 信息 。 

2) 端口 登录 (PLOGI) : 端口 登录 在 两 个 N_Port 之 间 执 行 来 建立 会 话 。 启 动 端 N_Port 向 目标 端 N_Port 发 送 PLOGI 请 求 
帧 ， 目 标 N_Port 接 受 并 向 启动 端 N_Port 返 回 Accept (ACC) 。 之 后 ，N_Port 之 间 交 换 与 会 话 相关 的 服务 参数 。 

3) 进程 登录 (PRLI) : 进程 登录 也 在 两 个 N_Port 之 间 执 行 。 此 登录 类 型 与 FC-4 上 层 协 议 (ULP) 有 关 ， 例如 SCSI 协 议 。 
如 果 ULP 是 SCSI 协 议 ， 则 N_Port 之 间 交 换 与 SCSI 相 关 的 服务 参数 。 


9. 全 球 名 称 设 备 寻 址 


所 有 光纤 通道 设备 诸如 主机 适配器 (启动 端 ) 或 存储 设备 〈 目 标 端 ) 等 ， 都 具有 特定 的 64 位 标识 ， 该 标识 来 自 IEEE OUI 和 
供应 商 的 信息 ， 称 为 全 球 通 用 名 称 (WWN) 。 该 寻 址 系统 可 以 与 以 太 网 卡 和 MAC 地 址 相 比 较 。 每 个 节点 端口 都 有 自己 的 
WWN， 具 有 多 个 光纤 通道 端口 的 设备 也 可 以 拥有 自己 的 NWN。 


WWN 的 寻 址 方式 有 两 种 。 比 较 老 的 方式 从 10: 00 开 始 ， 之 后 是 公司 ID 和 供应 商 特 定 的 信息 。 较 新 的 方式 前 半 字 节 为 十 六 
进 制 数值 5 或 6， 后 面 是 3 个 字 节 的 供应 商 信息 ， 如 图 3-6 所 示 。 
公司 ID 供应 商 特定 信息 公司 ID 供应 商 特定 信息 
-人 ~ /一 一 人 一 一 ~y 一 一 一 个 一 一 一 ~ 


老 设备 10:00:08:00:5a:d0:97:9b 新 设备 50:05:07:63:00:d0:97:9b 
寻 址 方式 | | 20:00:08:00:5a:d0:97:9b | 寻 址 方式 | | 60:05:07:63:00:40:97:9b 





图 3-6 WWN 设 备 寻 址 


与 动态 分 配 的 光纤 通道 地 址 不 同 ，WWN 是 光纤 通道 网 络 上 每 个 节点 的 静态 名 称 。 传 统 的 做 法 ， 是 将 WWN 刻 录 进 硬件 ， 最 
近 一 些 供应 商 的 设备 也 可 以 通过 软件 进行 设置 。SAN 内 的 一 些 定义 和 配置 使 用 WWN 来 区 分 存储 设备 和 HBA。 光 纤 通 道 环境 中 的 
名 称 服务 器 用 来 记录 WWN 与 动态 创建 的 节点 光纤 通道 地 址 之 间 的 天 联 信息 。 


光纤 通道 环境 使 用 两 种 类 型 的 WWN。 
“ 全 球 节点 名 称 : WWNN 是 识别 服务 器 的 唯一 标识 符 。 
. 全 球 端口 名 称 : WWPN 是 识别 HBA 上 的 特定 物理 端口 的 唯一 标识 。 


WWNN 是 分 配给 每 个 光纤 通道 节点 或 设备 的 全 球 唯一 的 64 位 标识 符 。 例 如 ， 对 于 服务 器 和 主机 来 说 ， 每 个 HBA 的 WWNN 
是 独一无二 的 。 服 务 器 配置 两 个 物理 HBA 卡 将 有 两 个 WWNN。 对 于 SAN 光 纤 交 换 机 ，WWNN 是 机 箱 上 的 常用 标识 符 。 对 于 存 
储 设备 ，WWNN 是 阵列 中 的 每 个 仓储 控制 器 的 唯一 标识 符 ， 有 一 些 供应 商 的 硬件 ，WWNN 在 整个 存储 阵列 都 是 唯一 的 。 


WWPN 是 与 光纤 通道 设备 相关 联 的 光纤 通道 端口 的 唯一 标识 符 。 例 如 ， 主 机 服务 器 具有 HBA 上 每 个 端口 (通常 为 1、2 或 
4) 的 WWPN。 对 于 SAN 光 纤 交 换 机 ，WWPN 可 用 于 机 箱 中 的 每 一 个 端口 ， 并 且 ， 存 储 设备 上 的 每 个 前 端 端口 具有 单独 的 


WWPN。 


WWNN 和 WWPN 地 址 由 16 位 十 六 进 制 数值 组 成 。 图 3-7 说 明了 阵列 和 HBA 的 WWN 是 如 何 构 成 的 。 





| 全 球 名 称 阵 列 (EMC 磁 盘子 系统 ) | 
5 0 0 6 0 1 6 0 0 0 6 0 0 | b 2 





征 宫 | 公司 ID (24 位 ) | 端口 模型 种 子 ( 32 位 ) 


全 球 名 称 HBA〔 模拟 ) | 


1 0 0 0 0 0 0 0 C 9 2 0 d c 4 0 











公司 ID (24 位 ) 公司 特定 (24 位 ) 








图 3-7 全 局 命名 (WWN) 设备 寻 址 


10.SAN 管 理 软件 


最 后 需要 提 到 的 光纤 组 件 是 SAN 管 理 软件 。 人 存储 运 维 团队 使 用 SAN 管 理 软件 来 管理 主机 ， 互 连 设备 和 存储 阵列 之 间 的 SAN 
光纤 接口 。 该 软件 通常 提供 SAN 环 境 的 总 体 视 图 ， 并 且 可 以 使 用 中 央 控 制 台 来 管理 各 种 资源 如 图 3-8 所 示 。 


在 大 多 数 情 况 下 ，SAN 管 理 软件 通过 Web 或 命令 行 界 面 为 识别 的 光纤 设备 提供 关键 的 管理 功能 (如 分 区 、 监 视 和 警报 


3.1.2 ”光纤 通道 拓扑 


ANSI 光 纤 通 道 标准 定义 了 3 种 拓扑 ， 并 描述 了 3 种 拓扑 的 端口 如 何 连 接 。 
点 对 点 (FC-P2P) : 两 个 设备 彼此 直接 连接 。 
. 仲裁 环 路 (FC-AL) : 传统 的 共享 拓扑 ， 其 中 所 有 设备 都 通过 环 路 或 环 互 连 。 


. 交换 式 结构 (FC-SW) : 交换 式 结构 拓扑 是 所 有 设备 或 环 路 设备 连接 到 公共 互连网 络 的 一 种 共享 拓扑 。 交 换 式 结构 拓扑 是 
大 多 数 SAN 光 纤 结构 的 基础 。 


存储 阵列 前 端 








存 俏 运 维 团 队 ;光纤 通道 ( 块 10 ) --…-- --- | 


; 以 太 网 (管理 ) 


图 3-8 ” SAN 管理 拓扑 


1. 点 对 点 连接 


点 对 点 (FC-P2P) 的 拓扑 是 最 简单 的 光纤 通道 配置 。 如 图 3-9 所 示 ， 两 个 设备 直接 相连 ， 这 种 拓扑 为 节点 之 间 的 数据 传输 
提供 专 有 的 连接 。 同 时 ， 点 对 点 的 这 种 配置 还 提供 了 连接 控制 和 扩展 的 功能 ， 即 只 有 两 个 设备 在 给 定 的 时 间 内 能 够 彼此 的 通信 。 
因此 ， 该 拓扑 通常 仅 用 在 主机 和 标准 的 直接 连接 存储 (DAS) 设备 之 间 ， 提 供 点 对 点 连接 (如 图 3-9 所 示 ) 。 


控制 器 B 
存储 阵列 前 端 


图 3-9 ”点 对 点 (FC-P2P) 拓扑 


2. 仲 裁 环 路 连接 


仲裁 环 路 (FC-AL) 拓扑 是 一 种 低 成 本 的 连接 解决 方案 。 本 解决 方案 对 交换 机 设备 不 需要 投入 高 昂 的 成 本 ， 使 用 低 成 本 的 集 
线 器 即 可 满足 扩展 服务 器 和 存储 的 连接 需求 。 因 为 集线器 主要 用 于 JBOD 环 境 ，JBOD 的 成 本 低 于 企业 存储 ， 因 此 集线器 的 总 体 


成 本 要 低 于 交换 机 。 


在 仲裁 环 路 拓扑 中 ， 设 备 连接 到 共享 环 路 上 。 仲 裁 环 路 与 IP 网 络 中 的 令 牌 环 拓扑 和 物理 星 形 拓扑 的 结构 具有 相同 的 特征 。 在 
仲裁 环 路 中 ， 每 个 设备 需要 和 其 他 设备 竞争 来 执行 |/O 操 作 。 环 路 内 的 设备 通过 仲裁 来 获得 对 环 路 的 控制 。 在 任何 给 定 的 时 间 ， 
只 有 一 个 连接 的 设备 可 以 在 环 路 上 执行 MO 操作 。 


在 如 图 3-10 所 示 的 仲裁 环 路 拓扑 结构 中 ， 无 需 任 何 设备 互 连 就 可 以 实现 数据 通信 。 仲 裁 环 路 通常 使 用 集线器 ， 以 星 形 拓扑 
结构 连接 。 仲 裁 环 路 拓扑 在 扩展 性 和 性 能 方面 有 如 下 限制 : 


. 该 环 路 是 共享 的 ， 只 有 一 个 设备 可 以 在 给 定 的 时 间 执 行 IL/O 操 作 ， 环 路 中 的 其 他 设备 必须 轮 询 等 待 [/O 处 理 请 求 。 因 此 ， 
仲裁 环 路 的 整体 性 能 比较 差 。 


“ 仲裁 环 路 仅 使 用 24 位 光纤 通道 地 址 中 的 8 位 (其 余 16 位 作为 掩 码 ) ， 这 样 理论 上 可 以 为 端口 分 配 127 个 有 效 地 址 。 但 是 ， 其 
中 一 个 地 址 被 预 留 ， 用 于 环 路 连接 到 光纤 通道 交换 机 端口 。 因 此 ， 仲 裁 环 路 可 以 提供 最 多 126 个 节点 连接 。 


: 仲裁 环 路 可 以 提供 最 大 速度 为 8Gb/s 的 光纤 通道 。 
“ 在 FC-AL 环 路 拓扑 中 可 以 同时 使 用 NL_port 和 FL_pott。 


` 环 路 中 添加 或 删除 设备 ， 环 路 会 重新 开始 初始 化 ， 这 可 能 会 导致 环 路 中 的 流量 暂停 。 
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图 3-10 ”仲裁 环 路 拓扑 结构 


3. 交 换 式 结构 连接 


交换 式 结构 拓扑 (也 称 为 光纤 连接 ) 在 SAN 结 构 上 ， 为 所 有 节点 提供 全 带宽 级 别 的 性 能 、 扩 展 性 和 灵活 性 等 方面 的 保障 ， 
交换 式 结 构 是 现代 光纤 通道 SAN 设 计 的 基础 。 在 交换 结构 中 ， 设 备 或 端口 通过 端点 或 导向 器 交换 机 上 的 端口 ， 以 点 对 点 的 连接 
方式 来 访问 交换 式 结构 。 任 何 一 个 时 刻 ， 结 构 中 的 节点 之 间 都 有 n/2 个 全 带宽 连接 : 一 种 用 于 启动 端 ， 另 一 种 用 于 目标 端 。 


这 种 拓扑 结构 比 前 面 两 种 连接 拓扑 有 了 很 大 的 改进 ， 可 以 解决 几 种 不 同 的 数据 中 心 问题 ， 包 括 : 
" 近 距 离 扩 展 。 使 用 短波 到 长 波 的 转换 ， 扩 展 了 服务 器 到 存储 的 通信 距离 ， 有 效 地 解决 了 短波 500 米 传输 距离 的 限制 。 


* 容量 扩展 。 允 许 主机 的 端口 连接 到 多 个 存储 阵列 节点 ， 扩 展 了 主机 端口 最 大 可 以 支持 的 存储 容量 。 


光纤 结构 是 一 个 逻辑 上 的 空间 ， 内 部 的 节点 通过 光纤 通道 网 络 彼此 通信 。 可 以 使 用 单 台 交 换 机 或 交换 机 网 络 (通常 为 元 余 双 
重 架 构 ) 来 创建 此 虚拟 空间 。 结 构 中 的 每 台 交换 机 都 维护 一 个 唯一 的 域 ID， 由 光纤 结构 的 寻 址 方式 决定 。 在 交换 式 结构 拓扑 
中 ， 节 点 不 共享 环 路 ， 相 反 ， 数 据 通过 节点 之 间 的 专用 路 径 传输 。 此 外 ， 交 换 式 结构 中 的 每 个 端口 均 采 用 完全 独立 且 唯 一 的 24 
位 光纤 通道 地 址 进行 通信 。 


在 交换 式 结构 中 ， 任 意 两 个 光纤 通道 交换 机 之 间 的 连接 链 路 称 为 交换 机 间 链 路 (1SL) ， 如 图 3-11 所 示 。1SL 人 允许 交换 机 连接 
在 一 起 ， 创 建 一 个 更 大 的 光纤 结构 。1SL 将 主机 到 存储 数据 的 流量 和 光纤 结构 的 管理 流量 从 一 个 交换 机 传输 到 另 一 个 交换 机 ， 从 
而 使 得 交换 式 结构 能 够 被 扩展 ， 并 被 大 量 节点 连接 。 这 种 架构 是 可 行 的 ， 因 为 交换 式 的 结构 使 用 智能 交换 机 设备 ， 可 以 直接 通过 
交换 机 的 端口 交换 节点 之 间 的 数据 流量 ， 从 而 允许 数据 帧 在 光纤 结构 内 的 源 和 目的 地 址 之 间 路 由 。 
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图 3-11 交换 式 结构 连接 


与 仲裁 环 路 拓扑 不 同 ， 在 交换 式 结构 中 ， 网 络 为 数据 传输 提供 专用 路 径 ， 并 为 企业 数据 中 心 客 户 和 服务 提供 商 提供 所 需 的 扩 
展 性 、 性 能 和 灵活 性 。 在 交换 式 结构 中 添加 或 删除 光纤 通道 设备 通常 是 无 中 断 的 ， 不 会 影响 其 他 设备 之 间 正 在 进行 的 通信 。 


3.1.3 ”基于 交换 的 结构 

正如 之 前 所 讨论 的 ， 基 于 交换 的 结构 为 数据 中 心 架构 设计 提供 了 灵活 和 可 扩展 的 方法 。 因 此 ， 接 下 来 将 会 重点 介绍 几 种 标准 
的 拓扑 结构 。 

同时 ， 重 要 的 是 ， 如 何在 架构 设计 中 体现 “灵活 性 ”。 在 SAN 结 构 设 计 中 ， 没 有 一 种 设计 或 方案 比 另外 一 种 更 好 。 好 的 设 
计 也 只 是 源 于 对 用 户 需 求 的 理解 ， 并 且 充 分 了 解 客户 存储 环境 中 可 能 人 存在 的 设计 限制 。 
1. 核 心 -边缘 式 结构 拓扑 


第 1 个 拓扑 示例 是 企业 或 服务 提供 商 数 据 中 心经 常用 到 的 核心 -边缘 式 结 构 拓 扑 ， 这 种 拓扑 结构 包含 两 种 类 型 的 交换 层 。 边 缘 
层 通 常 由 机 架 顶 部 交换 机 (ToR) 组 成 ， 它 提供 了 一 种 相对 便宜 的 方式 增加 主机 到 网 络 。 该 架构 中 的 每 个 边缘 层 交换 机 通过 ISL 
连接 到 核心 层 交 换 机 .。 


核心 层 通常 由 导向 器 级 交换 机 组 成 ， 用 于 确保 核心 层 的 高 可 用 和 性 能 。 通 常 ， 在 核心 -边缘 式 结构 拓扑 中 ， 所 有 流量 必须 穿 
过 这 一 层 或 终止 于 这 一 层 。 在 此 拓扑 中 ， 所 有 存储 设备 都 连接 到 核心 层 ， 允 许 主机 到 存储 的 数据 流量 仅 穿 过 一 个 ISL。 在 特定 用 
例 中 ， 如 果 需 要 非常 低 的 延迟 和 更 高 的 性 能 ， 主 机 可 以 直接 连接 到 核心 层 的 导向 器 级 交换 机 ， 避 免 任何 潜在 的 |SL 延 迟 。 


此 外 ， 图 3-12 所 示 ， 在 此 拓扑 中 ， 边 缘 层 交 换 机 不 通过 1SL 连 接 。 核 心 -边缘 式 架 构 增 强 了 SAN 内 的 连接 性 ， 同 时 节省 了 主机 
的 总 体 端 口 数 。 如 果 需 要 扩展 架构， 可 以 将 扩展 的 边缘 层 交 换 机 连接 到 核心 层 导 向 器 交换 机 上 。 该 拓扑 具有 不 同 的 变 体 ， 单 核 架 
构 或 双核 架构 ， 分 别 如 图 3-12 和 图 3-13 所 示 。 因 此 ， 如 果 单 核 架 构 需要 扩展 到 双核 架构 ， 可 以 通过 在 核心 层 添加 导向 器 交换 机 
来 实现 ， 具 体 设计 上 取决 于 边缘 层 交 换 机 与 核心 层 交 换 机 的 比例 。 同 时 ， 从 单 核 扩 展 到 双核 ， 需 要 新 的 ISL 将 每 个 边缘 层 交换 机 
连接 到 新 的 核心 层 导向 器 交换 机 上 。 


与 核心 -边缘 式 结构 拓扑 相关 的 关键 设计 因素 包括 : 
“ 由 边缘 和 核心 交换 层 组 成 。 
所 有 网 络 流量 穿 过 核心 层 或 终止 于 核心 层 。 
. 存储 设备 通常 连接 到 核心 层 。 
- 高 可 用 性 。 
. 中 等 数据 中 心 可 扩展 性 。 


中 等 到 最 大 的 数据 中 心 的 连接 性 。 
2. 边 缘 -核心 -边缘 式 结构 拓扑 


如 图 3-14 所 示 ， 边 缘 -核心 -边缘 式 结构 拓扑 ， 为 边缘 层 交 换 机 新 增加 了 一 层 用 于 存储 设备 连接 ， 为 存储 的 横向 扩展 策略 提供 
了 新 的 扩展 方式 ， 解 决 了 直接 连接 到 存储 阵列 时 导向 器 级 交换 机 的 端口 限制 ， 以 及 降低 了 每 端口 的 成 本 。 这 种 结构 拓扑 通常 在 大 
型 企业 或 服务 提供 商 数 据 中 心 实施 中 使 用 ， 并 采用 一 个 统一 的 结构 方法 。 
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图 3-13 ”双核 核心 -边缘 式 结构 拓扑 
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图 3-14 ”双核 边缘 -核心 -边缘 式 结构 拓 相 
3. 网 状 拓扑 


在 光纤 结构 中 ， 网 状 拓扑 可 以 是 以 下 两 种 拓扑 类 型 之 一 : 
. 全 网 状 拓扑 
- 局 部 网 状 拓 相 


在 全 网 状 拓扑 中 ， 每 台 交 换 机 通过 1SL 连 接 到 其 他 交换 机 上 。 当 设计 中 包括 的 交换 机 数量 相对 较 少时 ， 这 种 拓扑 通常 是 最 合 
适 的 。 例 如 ， 最 多 4 台 边 缘 或 导向 器 级 交换 机 的 部 署 ， 其 中 每 台 交 换 机 都 可 以 为 主机 到 存储 提供 高 度 本 地 化 的 流量 服务 。 


在 全 网 状 拓扑 中 ， 主 机 流量 到 达 存 储 设备 时 ， 需 要 最 多 一 个 1SL 或 网 络 跳 ， 如 图 3-15 所 示 。 然 而 ， 随 着 交换 机 数量 的 增 
加 ，1SL 所 需 的 交换 机 端口 数量 也 会 增加 ， 可 用 的 主机 连接 端口 数量 则 会 随 之 减少 。 


全 网 状 拓扑 





























CN 
[光纤 通道 交换 机 上 + 于 光 纤 通道 交换 机 光纤 通 秒 交 换 机 -站 光纤 通道 交换 机 | 
































a 
光纤 通道 交换 机 站 一 中 光 纤 通 道 交换 机 | 


人 存 全 结构 8 
' 光纤 通道 交换 机 站 -中 光纤 通道 交换 机 


! 存 储 结构 A pa 1 


ens em ea em as, em aa amb me pa, ud, a mm, ete Pom. eet cpm ame cram a mui em mm en, Day am (eum ms, ss um ems A ems, ems ce te ems oa, wm dn em te es et ens gp Cs mas Fh ce ams sem re sms a, nd an me ems Ge mts ee ek pn: winnt rm hm ms amy ntl mit ey, np ees in os oll 


Re 
| 存储 控制 器 A| 存 储 控制 器 B| 
存储 
阵列 前 端 








图 3-15 ”全 网 状 拓扑 
以 下 是 与 全 网 状 拓扑 相关 联 的 关键 设计 因素 : 
* 每 台 交 换 机 已 经 连接 到 光纤 结构 内 的 其 他 交换 机 上 。 
. 主机 到 存储 设备 流量 需要 最 多 一 个 ISL 或 网 络 跳 。 
“ 主机 和 存储 可 以 连接 到 结构 中 的 任何 交换 机 。 


然而 。 在 局 部 网 状 拓 扑 结构 中 ， 主 机 流量 可 能 需要 多 跳 或 多 条 1SL 才 能 到 达 存 储 设备 ， 如 图 3-16 所 示 。 与 全 网 状 拓扑 相 比 ， 
局 部 网 状 拓扑 提供 了 更 适合 扩展 的 解决 方案 。 因 此 ， 如 果 没 有 很 好 地 考虑 主机 和 存储 设备 的 布置 ， 局 部 网 状 拓扑 的 流量 管理 可 能 
会 变 得 复杂 并 引入 延迟 。 此 外 ， 由 于 交换 机 之 间 的 高 流量 聚合 ，1SL 可 能 会 过 载 。 


局 部 网 状 拓扑 
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图 3-16 ”局 部 网 状 拓扑 















以 下 是 与 局 部 网 状 拓扑 相关 联 的 关键 设计 因素 : 
.并非 所 有 交换 机 都 连接 到 其 他 交换 机 上 。 

* 可 能 增加 的 复杂 的 流量 。 

比 全 网 状 拓扑 更 具备 扩展 性 。 


* 可 能 的 ISL 的 过 载 。 


3.1.4 ”安全 和 流量 隔离 功能 


无 论 数据 传输 还 是 存储 ， 对 大 多 数 |T 组 织 来 说 ， 保 障 数 据 不 被 意外 地 或 恶意 地 泄露 至 关 重 要 。SAN 的 安全 性 作为 存储 结构 设 


计 中 的 一 部 分 ， 应 被 仔细 地 考量 ,然后 在 实施 时 遵循 所 有 适用 的 安全 策略 。 光 纤 通 道 SAN 中 ， 很 多 技术 都 可 以 帮助 保护 数据 的 
安全 。 


1. 光 纤 结 构 交 换 分 区 


分 区 是 光纤 通道 交换 机 的 一 种 功能 ， 光 纤 结 构 中 的 节点 端口 被 逻辑 地 分 成 若干 组 ， 并 仅 与 同一 组 内 的 节点 端口 进行 通信 ， 如 
图 3 一 1 7 所 示 。 


分 区 作为 光纤 结构 设计 重要 的 一 部 分 ， 原 因 有 如 下 几 点 : 首先 ， 当 名 称 服务 器 数据 库 发 生 更 改 时 ， 网 络 控制 器 会 将 “注册 状 
态 变更 通知 ” (RSCN) 发 送 给 所 有 受 更 改 影 响 的 节点 。 如 果 尚 未 配置 分 区 ， 则 网 络 控制 器 将 RSCN 发 送 到 结构 中 的 所 有 节点 ， 
包括 未 受 更 改 影响 的 节点 ， 这 会 导致 光纤 结构 管理 流量 的 大 幅 增加 。 在 大 型 架构 中 ， 光 纤 通 道上 的 流量 过 大 的 话 ， 还 可 能 影响 主 


机 到 存储 之 间 的 数据 流量 。 因 此 ， 分 区 有 助 于 限制 光纤 结构 中 的 RSCN 数 量 ; 实现 分 区 时 ， 光 纤 结 构 只 发 送 RSCN 到 发 生 更 改 区 
域内 的 节点 。 
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图 3-17 光纤 结构 分 区 


此 外 ， 分 区 还 提供 与 存储 相关 的 访问 控制 机 制 ， 并 可 以 设置 访问 控制 级 别 ， 例 如 LUN 掩 码 等 。 分 区 提供 的 访问 控制 ， 只 多 
许 同 一 区 域内 的 成 员 彼 此 进行 通信 。 

分 区 的 过 程 中 包含 3 种 不 同 的 层级 : 区 域 成 员 、 区 域 和 区 域 集 ， 其 中 的 不 同 取决 于 交换 机 的 供应 商 。 区 域 集 由 一 组 区 域 组 
成 ， 可 以 将 这 些 区 域 作为 单个 实体 在 光纤 结构 中 激活 或 停 用 。 昌 然 在 一 个 光纤 结构 中 可 以 定义 多 个 区 域 集 ， 但 一 个 时 间 段 内 只 能 
激活 一 个 区 域 集 。 区 域 成 员 是 SAN 结 构 中 的 节点 ， 包 括 交 换 机 端口 、HBA 端 口 和 存储 设备 端口 。 端 口 或 节点 可 以 同时 是 多 个 区 
域 的 成 员 。 一 个 光纤 交换 结构 中 的 多 个 交换 机 上 分 散 的 节点 ， 可 以 分 组 并 被 划分 到 相同 的 区 域内 。 某 些 光纤 通道 交换 机 供应 商 也 
将 区 域 集 称 为 区 域 配置 。 

对 于 元 余 和 可 用 性 ，VMware 建 议 的 最 佳 实践 做 法 是 ， 在 vSphere 环 境 中 采用 单一 启动 器 /单一 目标 的 分 区 策略 ， 如 图 3-18 
所 示 。 此 方法 确定 仪 有 一 个 启动 器 及 其 关联 的 目标 端口 位 于 单个 区 域 中 。 注 意 ， 主 机 端口 和 存储 阵列 端口 可 以 同时 存在 多 个 区 域 
中 。 


典型 的 vSphere 设 计 采 用 的 分 区 标准 包括 以 下 内 容 : 
: 每 台 主 机 应 分 配 A 和 B 两 个 光纤 结构 ， 以 保障 高 可 用 。 
. 每 台 主 机 应 配置 到 每 个 存储 控制 器 的 路 径 ， 以 保障 高 可 用 。 
: 每 台 主 机 应 至 少 配 置 4 条 路 径 用 于 访问 数据 ， 保 障 路 径 宛 余 。 


“ VSphere 集 群 的 主机 通常 应 共享 相同 的 前 端 存储 端口 。 
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图 3-18 ”分 区 /区 域 集 
与 分 区 设计 相关 的 关键 设计 因素 包括 : 
* 区 域 使 光纤 结构 中 的 节点 端口 能 够 相互 通信 。 
` 区 域 集 包含 多 个 区 域 配置 。 
. 每 个 区 域 配 有 两 个 区 域 成 员 : 一 个 HBA (启动 器 ) 和 一 个 阵列 端口 (目标) 。 
“ 存储 端口 和 主机 端口 可 能 同时 存在 于 多 个 区 域 中 。 
' 分 区 的 访问 控制 机 制 设 计 仅 仅 是 SAN 安 全 设计 中 的 一 小 部 分 。 
2.LUN 掉 码 


LUN 掩 码 提供 了 额外 的 层 用 于 数据 保护 。 没 有 LUN 掩 码 ， 任 何 主机 可 以 通过 分 区 访问 存储 端口 ， 并 通过 该 端口 访问 后 面 的 
所 有 数据 。 因 此 ， 通 常 所 有 的 存储 都 是 通过 掩 码 视图 呈现 的 ， 尽 管 这 种 机 制 的 实现 根据 存储 供应 商 的 不 同 有 很 大 的 不 同 。 


与 LUN 掩 码 相关 的 关键 设计 因素 包括 : 

分 区 限制 了 服务 器 到 存储 端口 的 访问 ， 而 掩 码 则 限制 存储 端口 到 设备 的 访问 。 
` 如 果 从 SAN 引 导 ， 则 必须 首先 将 引导 LUN 掩 为 LUN 0。 

` 如 果 从 SAN 引 导 ， 每 个 服务 器 都 应 有 自己 的 掩 码 视图 ， 其 中 只 包含 引导 LUN。 


* VSphere 集 群 的 每 个 ESXi 主 机 被 掩 到 同一 个 掩 码 视图 ， 由 该 视图 提供 共享 LUN 到 所 有 主机 的 访问 。 


3. 庶 拟 光纤 结构 设计 


虚拟 光纤 结构 (Virtual Fabric) 也 称 为 虚拟 SAN ， 不 应 该 与 VMware 的 Virtual SAN 混 淆 ，Virtual SAN 产 品 在 第 4 章 中 有 详 
细 的 介绍 。 需 要 说 明 的 是 ， 一 些 光 纤 通 道 交 换 机 供应 商 ， 如 思科 ， 将 此 技术 称 为 虚拟 SAN 或 VSAN。 为 了 避免 进一步 的 混淆 ， 在 
本 书 中 ， 我 们 在 引用 这 种 虚拟 SAN 机 制 时 ， 专 门 使 用 术语 虚拟 光纤 结构 。 


虚拟 光纤 结构 是 光纤 通道 SAN 上 的 逻辑 结构 ， 具 体 来 说 ， 一 组 节点 之 间 可 以 实现 通信 ， 而 不 需要 关心 节点 在 物理 结构 中 的 
位 置 。 在 虚拟 光纤 结构 中 ， 一 组 主机 或 存储 端口 使 用 物理 SAN 上 定义 的 虚拟 拓扑 相互 通信 。 此 外 ， 也 可 以 在 单个 物理 SAN 上 创 
建 多 个 虚拟 光纤 结构 ， 每 个 虚拟 光纤 结构 作为 独立 的 逻辑 SAN， 具 有 自己 的 一 组 结构 服务 ， 如 名 称 服务 器 和 分 区 。 采 用 这 种 技 
术 进 行 存 储 架构 设计 时 ， 一 个 虚拟 光纤 结构 内 与 光纤 结构 相关 的 配置 ， 不 会 影响 其 他 虚拟 机 的 流量 。 


在 设计 上 使 用 虚拟 光纤 结构 可 以 提高 SAN 的 安全 性 、 可 扩展 性 、 可 用 性 和 可 管理 性 。 该 技术 通过 隔离 敏感 的 存储 数据 ， 限 
制 对 虚拟 光纤 结构 内 的 资源 的 访问 来 增强 安全 性 。 由 于 相同 的 光纤 通道 地 址 可 以 分 配给 不 同 虚拟 光纤 结构 中 的 节点 使 用 ， 因 此 光 
纤 结构 的 可 扩展 性 得 到 了 增强 。 此 外 ， 虚 拟 光 纤 结构 中 的 流量 中 断 的 事件 是 隔离 的 ， 不 会 影响 同一 物理 SAN 中 的 其 他 虚拟 光纤 
结构 。 


虚拟 光纤 结构 采用 更 简单 、 更 灵活 、 更 便宜 的 方式 来 管理 复杂 的 光纤 通道 网 络 。 与 多 个 节点 或 不 同 客户 环境 中 的 不 同 组 的 节 
点 构建 单独 的 物理 光纤 SAN 相 比 ， 创 建 多 个 虚拟 光纤 结构 ， 更 容易 ， 更 快速 ， 更 具 成 本 效益 。 例 如 ， 将 节点 重新 组 合成 不 同 的 
虚拟 光纤 结构 ， 管 理 员 可 以 简单 地 更 改 虚 拟 光纤 结构 配置 ， 而 无 需 移动 节点 或 在 数据 中 心 进行 重新 配置 ， 如 图 3-19 所 示 。 
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图 3-19 虚拟 光纤 结构 架构 示例 


虚拟 光纤 结构 具有 内 置 的 标签 机 制 ， 虚 拟 光 纤 结构 中 的 标签 与 局 域 网 使 用 VLAN 标 签 比较 类 似 。 


在 如 图 3-20 所 示 的 示例 中 ， 同 一 公共 云 平 台 上 的 两 个 租户 共享 相同 的 物理 SAN 基 础 架构 。 为 了 将 彼此 数据 隔离 ， 服 务 提供 
商 为 每 个 客户 创建 了 一 个 虚拟 光纤 结构 ， 每 个 客户 使 用 不 同 的 ID。 如 果 运 维 团 队 的 成 员 因 配 置 错误 将 两 个 网 络 连 在 一 起 ， 虚 拟 
光纤 结构 也 不 会 合并 ， 对 用 户 的 业务 也 不 会 造成 影响 。 
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通常 ， 在 每 个 光纤 通道 交换 机 之 间 创 建 1SL 和 集群， 承载 该 物理 SAN 的 所 有 虚拟 光纤 结构 。 虽 然 也 可 以 为 每 个 租户 的 虚拟 光纤 
结构 创建 单独 的 物理 1SL， 但 这 将 占用 更 多 的 交换 机 端口 。 


图 3-20 ”虚拟 光纤 结构 示例 


此 外 ， 每 个 存储 端口 与 特定 的 虚拟 光纤 结构 相关 联 ， 限 制 每 个 租户 可 以 访问 的 端口 。 因 此 ， 如 果 存 储 阵列 允许 管理 员 控 制 各 
个 LUN 暴 露 在 哪个 前 端 端口 ， 那 么 数据 对 于 不 同 虚拟 光纤 结构 上 的 主机 也 将 不 可 用 。 


4. 光 纤 通 道 SAN 安 全 选项 


与 LAN 基 础 架构 一 样 ， 可 以 采用 各 种 安全 机 制 来 保障 SAN 的 安全 。 表 3-3 提 供 了 几 种 SAN 安 全 选项 的 描述 ， 这 些 选 项 构成 了 
光纤 结构 安全 设计 的 一 部 分 。 


表 3-3 SAN 安 全 选项 


功 能 描 述 
光纤 结构 绑 定 确保 ISL 仅 在 授权 交换 机 之 间 形 成 。 这 种 机 制 不 仅 可 以 防止 
光纤 结构 绑 定 非法 设备 加 入 光纤 结构 ， 而 且 可 以 防止 电缆 无 意 中 连 接 到 不 正确 的 交换 机 端 


口 时 发 生 的 意外 路 由 配置 


光纤 通道 安全 协议 (FC-SP)， 在 主机 尝试 注册 与 交换 机 的 连接 时 ， 强 制 交 


光纤 通道 安全 协议 (FC-SP) nd 
光纤 通道 安全 协议 (FC-SP) | 换 机 对 ISL 合作 伙伴 进行 认证 


( 续 ) 
功 能 描 述 
端口 安全 端口 安 全 允 许 光纤 结构 管理 员 指 定 WWN 连接 到 特定 的 交换 机 端口 ， 防 止 
非法 设备 连接 到 该 光纤 结构 
ISL 加 密 交换 机 间 链 路 (ISL) 加 密 可 用 于 保护 交换 机 之 间 正 在 进行 的 数据 通信 


3.1.5”N_Port 虚 拟 化 和 N_PortID 虚 拟 化 


N_Port 虚 拟 化 (NPV) 和 N_Port ID 虚拟 化 (NPIV) 是 紧密 相关 的 技术 。 然 而 ，NPV 的 使 用 需要 NPIV 配 合 ， 但 NPIV 的 使 
用 不 需要 NPV.。 


N_Port 虚 拟 化 允许 光纤 通道 交换 机 在 不 执行 标准 光纤 通道 交换 机 功能 (如 分 区 或 名 称 服务 器 ) 的 情况 下 运行 ， 也 可 以 去 掉 
对 域 ID 的 要 求 。 本 质 上 ，N_Port 虚 拟 化 将 交换 机 转换 为 集线器 ， 变 成 一 个 将 连接 聚合 的 简单 的 连接 设备 。 当 主机 服务 器 连接 到 
NPV 交 换 机 时 ， 它 会 尝试 登录 到 NPV 交 换 机 。 由 于 登录 请 求 不 能 被 NPV 交 换 机 处 理 ， 请 求 通过 NP_Port 转 发 到 NPIV 交 换 机 ， 如 
图 3-21 所 示 。 





图 3-21 N_Pott 虚 拟 化 (NPV) 和 N_Port ID 虚 拟 化 (NPIV) 


NP_Port 作 为 实际 N_Port 的 代理 ， 与 尝试 登录 到 光纤 结构 的 1SL 的 方式 类 似 。 主 机 服务 器 登录 后 ，NPIV 交 换 机 提供 FCID。 


这 些 技术 的 真正 优势 在 于 能 够 将 多 个 物理 WWN 注 册 到 每 台 交换 机 端口 。 一 般 情 况 下 ， 不 启用 N_Port 虚 拟 化 ， 每 台 主 机 只 


能 在 交换 机 端口 上 注册 一 个 物理 WWN。 然 而 ， 如 图 3-21 所 示 ， 两 个 主机 系统 通过 单个 NP_Port 登 录 并 注册 其 唯一 的 物理 
WWN。NPIV 允 许 终端 设备 (在 这 种 情况 下 是 NVP 交 换 机 ) 将 多 个 物理 WWN 注 册 到 每 台 交 换 机 端口 ， 这 在 使 用 融合 的 刀片 系 
统 时 非常 有 用 。 


NPV 和 NPIV 的 两 个 典型 用 例如 图 3-22 所 示 。 


第 1 个 用 例 是 传统 方式 设计 的 环境 ， 每 个 刀片 服务 器 交换 机 都 有 自己 的 域 ID。 通 过 使 用 NPV 和 NPIV， 我 们 可 以 在 刀片 式 机 
箱 交 换 机 中 去 掉 域 ID 的 需求 ， 从 而 显著 地 将 光纤 结构 扩展 到 更 大 规模 ， 并 有 效 地 使 用 集线器 替换 刀片 式 机 箱 交 换 机 .。 


第 2 个 用 例 ， 如 图 3-22 下 图 所 示 ， 供 应 商 交 换 机 混合 环境 中 的 互 操作 性 问题 。 采 用 传统 方式 ， 两 台 交 换 机 在 互 操作 的 模式 下 
互相 连接 ， 一 台 作 为 光纤 结构 的 主 控制 交换 机 ， 另 一 台 作 为 从 属 的 交换 机 。 然 而 ， 在 混合 硬件 的 这 种 设计 中 ， 许 多 供应 商 交 换 机 
的 高 级 功能 取决 于 特定 交换 机 或 固件 ， 在 其 他 供应 商 的 交换 机 上 不 可 用 。 使 用 NPV 和 NPIV， 主 交换 机 可 以 在 本 地 配置 中 ， 保 留 
许多 供应 商 的 高 级 光纤 交换 机 的 功能 。 


光纤 通道 边缘 交换 机 光纤 通道 边缘 交换 机 


小 域 D0 上 一 本 a 
a y es ee y es 
长 一 一 2» 一 
刀片 机 箱 刀片 机 箱 刀片 机 箱 刀片 机 箱 刀片 机 箱 刀片 机 箱 


用 例 1 


域 ID 1 域 ID 2 域 ID n 域 ID N/A 域 ID N/A 域 ID N/A 


光纤 通道 交换 机 与 刀片 服务 器 机 箱 光纤 通道 交换 机 与 刀片 服务 器 机 箱 
光纤 通道 光纤 通道 光纤 通道 光纤 通道 光纤 通道 光纤 通道 光纤 通道 光纤 通道 
边缘 交换 机 边缘 交换 机 边缘 交换 机 边缘 交换 机 边缘 交换 机 边缘 交换 机 边缘 交换 机 边缘 交换 机 
用 例 2 供应 商 A 供应 商 A 供应 商 B 供应 商 B 供应 商 A 供应 商 B 供应 商 B 供应 商 C 
域 ID 1 域 ID 1 域 ID 2 域 ID 2 域 ID 1 NPV 模 式 NPV 模 式 NPV 模 式 
供应 商 SAN 与 互 操 作 性 供应 商 SAN 与 互 操作 性 


图 3-22 ”NPV 和 NPIV 用 例 


3.1.6 从 SAN 引 导 


如 第 2 章 所 述 ，ESXi 主 机 可 以 配置 为 通过 SAN 从 远程 存储 设备 引导 ， 实 现 灵活 和 无 状态 的 体系 结构 。 通 过 启用 远程 引导 功 
能 ， 可 以 把 ESXi 主 机 从 本 地 物理 硬件 中 抽 离 出 来 ， 无 需 配 置 本 地 连接 的 存储 设备 。 这 人 允许 在 任何 时 间 将 主机 节点 动态 地 重新 利 


用 、 蔡 换 物 理 硬件 和 更 改 硬件 的 物理 位 置 。 这 种 设计 通常 需要 主机 、 光 纤 结 构 和 目标 存储 设备 提供 非常 具体 的 配置 信息 。 
在 如 图 3-23 所 示 的 例子 中 ，HBA0 通 过 光纤 结构 A 有 两 条 到 目标 LUN 的 路 径 。 这 两 条 路 径 指向 前 端 存 储 设备 端口 的 WWPN， 


这 些 端口 已 经 在 引导 设备 后 面 被 掩 码 。 同 样 ，HBA1 也 有 两 条 通 往 光 纤 结 构 B 的 路 径 。 这 两 条 路 径 也 指向 前 端 端口 的 同一 个 
WWPN， 这 两 条 路 径 也 在 同一 个 引导 设备 的 后 面 被 掩 码 。 
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图 3-23 ”从 SAN 引 导 示 例 


从 SAN 引 导 (BfSAN) 高 度 依赖 供应 商 的 硬件 及 配置 。 有 关 设 计 的 更 多 信息 ， 请 参考 硬件 供应 商 的 文档 。 


3.1.7 ”光纤 通道 概要 


光纤 通道 架构 是 构成 光纤 通道 SAN 的 基础 。 这 种 架构 体现 了 真正 的 通道 和 网 络 的 整合 。 它 综合 了 信道 技术 和 网 络 灵活 性 等 


许多 优点 ， 提 供 承载 在 光纤 或 铜 质 线路 上 的 串 行 数据 传输 接口 用 于 通信 。 光 纤 通 道 SAN 比 SCSI 的 网 络 实现 更 加 有 效 ， 具 有 更 高 
的 数据 传输 速度 、 更 低 的 协议 开销 和 更 好 的 网 络 技术 扩展 性 。 


在 光纤 通道 协议 架构 中 ， 连 接 到 SAN 的 所 有 外 部 和 远程 存储 设备 在 主机 的 操作 系统 上 都 显示 为 本 地 设备 。 光 纤 通 道 协 议 与 
其 他 存储 协议 相 比 的 优势 如 下 : 


“ 提供 长 距离 的 持续 传输 带宽 。 
: 光纤 通道 协议 网 络 支持 更 多 的 可 寻 址 设备 。 理 论 上 ， 光 纤 通道 网 络 可 以 支持 超过 1500 万 个 设备 地 址 。 
. 支持 写 入 时 高 达 20Gb/s (20GFC) 的 速度 。 


SAN 结 构 拓 扑 首先 应 与 设计 要 求 相 一 致 。 核 心 -边缘 模型 提供 了 一 个 简单 并 可 扩展 的 设计 ， 可 以 满足 大 多 数 企业 的 主机 连接 
需求 。 在 此 模型 中 ， 存 储 连 接 到 核心 ， 如 果 需 要 添加 更 多 的 存储 ， 并 超出 了 一 对 导向 器 交换 机 的 支持 范围 ， 可 以 通过 添加 更 多 的 
核心 交换 机 进行 扩展 。 大 型 企业 或 云 服务 提供 商 的 环境 中 ， 边 缘 - 核 心 -边缘 设计 允许 互相 独立 地 纵向 扩展 主机 端口 和 存储 端口 。 
核心 -边缘 -核心 模型 中 ， 核 心 导 向 器 交换 机 只 能 作为 连接 层 ， 在 两 个 边缘 交换 层 之 间 路 由 流量 。 


不 管 采用 哪 种 光纤 通道 拓扑 模型 ， 至 关 重 要 的 是 ,设计 师 必须 在 光纤 结构 设计 中 充分 考虑 主机 和 存储 之 间 的 通信 路 径 ， 并 设 
计 1SL 的 大 小 以 确保 吞吐 量 满足 需求 。 


对 于 大 型 环境 ,特别 是 使 用 刀片 式 主机 的 环境 ， 由 于 光纤 通道 交换 机 上 可 用 的 域 ID 数 量 有 限 ， 因 此 可 以 利用 NPV 和 NPIV 进 
一 步 进 行 扩展 。N-Port 虚 拟 化 从 光纤 交换 机 中 去 掉 交 换 功能 和 域 ID， 人 允许 SAN 中 加 入 更 多 的 物理 交换 机 ， 而 不 超过 光纤 结构 的 
大 小 限制 。 


3.2 iSCSI 存 储 传输 协议 


本 章 要 介绍 的 存储 协议 是 iSCSI。 像 光纤 通道 一 样 ，iSCSl 是 一 种 成 熟 的 块 协议 ， 可 以 利用 现 有 的 网 络 组 件 实现 部 署 ， 因 此 可 
以 用 一 个 较 低 的 成 本 ， 来 实现 存储 网 络 的 扩展 。 但 是 ， 你 还 必须 考虑 超过 1Gb/s 以 太 网 的 性 能 限制 ， 如 果 使 用 标准 网 络 适 配器 ， 
会 增加 主机 CPU 的 开销 。 在 典型 的 企业 或 服务 提供 商 环 境 中 ， 可 以 采用 专门 的 10Gb/s 适 配器 硬件 ， 并 从 CPU 镍 载 任务 处 理 ， 这 
种 方式 会 显著 地 增加 存储 成 本 ， 特 别 是 部 署 大 量 管理 程序 时 ， 成 本 的 增加 更 明显 。 


iSCSI 协 议 允 许 块 数据 通过 IP 网 络 传输 ， 通 过 TCP/IP 数 据 包 封 装 SCSI 命 令 ， 并 人 允许 封装 的 数据 包 通 过 以 太 网 、 互 联网 进行 传 
输 。ESXi 主 机 系统 (启动 器 ) 使 用 iSCSI 连 接 与 远程 存储 设备 (目标) 进行 通信 ， 方式 与 本 地 磁盘 设备 通信 相同 。iSCSI 被 广泛 地 
用 于 服务 器 连接 存储 ， 与 光纤 通道 SAN 基 础 架构 相 比 ， 它 的 成 本 相对 便宜 且 实 现 方 式 相对 简单 。 


3.2.1 iSCSI 协 议 组 件 
iSCSI 组 件 包含 启 动 器 和 目标 。 启 动 器 可 以 是 托管 应 用 的 主机 服务 器 ， 其 中 应 用 向 连接 的 存储 设备 定期 请 求 数据 。 在 
vSphere 环 境 中 ， 启 动 器 由 ESXi 主 机 提供 。 此 外 ， 驻 留 在 主机 上 的 iSCSI 驱 动 程序 有 时 也 称 为 启动 器 。 


启动 器 通过 应 用 向 存储 设备 发 送 或 接收 数据 请 求 ， 来 启动 iSCSI 数据 传输 事务 。 虚 拟 机 的 请 求 立即 被 转换 成 SCSI 命 令 ， 并 被 
封装 到 isCsl 中 ， 在 TCP/IP 协 议 中 添加 分 组 和 报头 信息 后 通过 以 太 网 进行 传输 。 


如 图 3-24 所 示 ，iSCS| 启 动 器 有 以 下 两 种 类 型 。 
' iSCSI 硬件 启动 器 : 此 适配器 类 型 可 以 通过 TCP/IP 网 络 使 用 专用 的 基于 硬件 的 适配器 访问 文件 。 


:iSCSI 软件 启动 器 : 此 适配器 类 型 以 相同 的 方式 通过 TCP/IP 网 络 访问 文件 ， 但 适配器 是 VMkernel 提 供 的 基于 软件 的 iSCSI。 
这 种 类 型 的 SCSI 启 动 器 可 以 与 标准 网 络 适 配器 配合 使 用 。 


这 两 种 适配器 类 型 都 将 在 本 章 的 后 面部 分 进行 详细 的 介绍 。 
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图 3-24 iSCSI 协议 组 件 架 构 


iSCSI 目标 指 的 是 位 于 连接 网 络 上 的 存储 设备 。 目 标 可 以 是 任何 类 型 的 存储 设备 ， 在 虚拟 数据 中 心 环 境 中 ， 它 们 通常 是 基于 
IP 的 SAN 的 存储 阵列 系统 。 


目标 接收 来 自 启动 器 的 iSCSI 命 令 ， 然 后 将 其 分 解 为 初始 的 SCSI 格 式 ， 人 允许 存储 设备 对 块 数据 进行 写 入 或 读 取 。 然 后 ， 目 标 


将 SCSI 命 令 发 回 该 主机 ， 响 应 主机 的 数据 请 求 。 这 些 命令 再 次 通过 iSCSI 封装 并 通过 以 太 网 传输 。 


与 光纤 通道 相 比 ， 以 太 网 存储 需要 进行 额外 的 考虑 。 以 太 网 协议 不 保证 数据 传输 质量 ， 所 以 我 们 使 用 传输 控制 协议 (TCP) 
来 管理 会 话 数据 。 通常， 以 太 网 络 被 认为 是 传输 数据 的 最 佳 方式 。 尽 管 协议 为 确保 数据 传输 成 功 做 出 了 很 多 的 努力 ， 但 最 终 还 是 
有 数据 包 因 为 网 络 原因 丢失 并 需要 重新 发 送 。 这 种 传输 方式 对 大 多 数 网 络 流量 类 型 来 说 不 是 一 件 大 事 ， 但 是 以 太 网 的 存储 I/O 数 
据 传 输 ， 对 数据 包 丢 失 容 忍 度 比 一 般 数 据 类 型 低 很 多 。 对 于 存储 来 说 ， 当 需要 读 取 数据 时 ， 通 常用 户 或 系统 都 在 等 待 存储 数据 输 
出 ， 因 此 低 效 的 网 络 设计 或 破旧 的 设备 引起 的 任何 延迟 都 会 被 认为 是 不 能 容忍 的 。 


此 外 ，iSCSI 流 量 应 在 网 络 上 进行 隔离 。iSCSI 流 量 有 时 被 隔离 到 专用 的 IP SAN 上 ， 为 存储 I/O 数 据 提供 高 效 的 网 络 结构 连接 
到 主机 服务 器 。 然 而 ， 在 许多 环境 中 ，iSCSI 只 是 用 专用 的 VLAN 进 行 隔离 ， 这 意味 着 必须 确定 iSCSI 数据 传输 的 优先 级 ， 保 障 主 
机 不 需要 等 待 不 必要 的 数据 ， 并 且 以 太 网 不 会 成 为 存储 性 能 的 瓶颈 。 因 此 ， 尽 管 不 是 严格 意义 上 的 要 求 ， 但 在 设计 共享 IP 网 络 
时 ， 应 将 优先 级 机 制作 为 iSCSI 流量 设计 的 关键 。IEEE 802.1Qbb 标 准 提供 一 种 称 为 优先 流 控制 (PFC) 的 机 制 来 执行 以 太 网 流 


量 控制 。 


iSCSI 网 络 中 的 PFC 针对 特定 类 别 的 服务 (CoS) 分 配 流量 类 型 ， 使 得 iSCSI 在 通过 网 络 硬件 时 具有 较 高 的 优先 级 。 如 果 网 络 
发 生 拥 塞 ， 以 太 网 交换 机 认定 存储 |/O 流 量 优先 于 通信 的 流量 ， 通 信 的 流量 通常 被 认为 具有 较 低 的 优先 级 〈 例 如， 最 终 用 户 在 
YouTube 上 观看 猫 洗澡 的 视频 ， 或 者 取笑 他 们 在 Facebook 上 的 朋友 ) 。 


3.2.2 iSCSI 流量 隔离 


综 上 所 述 ， 在 设计 iSCSI 存储 MO 架构 方案 时 ， 通 常会 采用 两 种 常见 的 流量 隔离 方法 : 


. 专用 物理 IP SAN 
. 专用 VLAN 
从 成 本 支出 与 运 维 视角 来 看 ， 实 现 完全 宛 余 和 高 性 能 的 专用 IP SAN 的 设计 显然 与 成 本 息息相关 。 因 此 ， 根 据 关键 需求 来 确 


认 SLA (服务 级 别 协议 ) 、 预 算 、 安 全 和 其 他 存储 结构 设计 因素 ， 为 制定 适当 的 存储 体系 结构 提供 指导 。 


由 于 成 本 和 操作 开销 的 原因 ， 通 常 更 常见 的 情况 是 将 iSCSI 存储 MO 简单 地 隔离 到 专用 VLAN 上 ， 特 别 是 在 10Gbys 的 网 络 平台 
上 及 用 这 种 方法 。 这 种 方法 通常 有 很 少 或 零 成 本 的 支出 ， 以 及 很 低 的 运 维 成 本 ,解决 了 绝 大 多 数 iSCSI 存 储 |/O 的 需求 。 


由 于 无 需 网 关 即 可 创建 VLAN， 因 此 可 以 创建 专用 于 iSCSI 存 储 I/O 的 非 路 由 的 隔离 网 络 。 此 外 ，VLAN 还 会 创建 一 个 隔离 的 
广播 域 ， 过 滤 不 必要 的 流量 ， 提 供 一 个 更 有 效 的 数据 流 。 同 样 重 要 的 是 ，VLAN 不 需要 具有 专用 的 带宽 ， 除 非 有 特殊 的 配置 需 
求 。 如 果 交 换 机 具有 15Tb/s 的 背 板 容量 ， 这 是 交换 机 的 总 体 吞吐 量 ， 并 且 在 配置 的 多 个 流量 类 型 之 间 共 享 。 如 果 交 换 机 背 板 容 
量 被 多 种 流量 类 型 占 满 ， 即 使 PFC 可 以 根据 802.1Qbb 标 签 对 流量 类 型 进行 优先 级 排序 ， 交 换 机 背 板 的 吞吐 量 是 不 会 增加 的 ， 只 
能 通过 更 换 交 换 机 来 实现 。 

因此 ， 为 存储 MO 流量 创建 专用 的 物理 |P SAN 具 有 两 个 主要 的 优点 。 交 换 机 背 板 提供 专用 的 带宽 ， 则 iSCSI 网 络 基础 架构 不 
会 路 由 其 他 流量 类 型 。 这 种 额外 的 隔离 层 还 从 安全 的 角度 提供 了 增强 的 结构 ， 实 现 了 真正 的 流量 隔离 ， 保 护 存储 |/O 免 受 公 用 网 
络 上 可 能 发 生 的 攻击 。 


3.2.3 ”巨型 帧 


在 iSCSI 网 络 上 启用 巨型 帧 允许 将 更 多 的 数据 打包 到 每 个 帧 中 ， 从 而 大 大 提高 了 网 络 流量 的 利用 率 。 


网 络 设备 上 配置 的 默认 最 大 传输 单元 (MTU) 为 每 个 以 太 网 帧 1500 个 字 节 ，isCsI 协 议 完全 支持 ， 并 且 可 以 在 iSCSI 存储 流 
下 不 出 现 问题 的 运行 。 但 是 ， 如 果 将 帧 大 小 增加 到 9000 字 节 ， 则 需要 发 送 的 帧 就 变 少 了 ， 从 而 总 体 的 网 络 效率 就 得 到 了 提 
例如 ， 如 果 发 送 2.7 万 字 节 的 数据 ， 需 要 18 个 正常 帧 才能 完成 ， 如 果 将 MTU 值 配置 为 9000， 则 只 需要 3 个 巨型 帧 就 可 以 完 
此 外 ， 网 络 适 配器 (启动 器 ) 只 需要 创建 和 打包 3 个 iSCSI 帧 ， 从 而 进一步 减少 了 开销 。 


= 
时 
高 
成 


在 网 络 上 配置 巨型 帧 要 求 将 整个 数据 路 径 从 vSphere 主 机 到 存储 目标 都 正确 的 配置 和 启用 ， 如 图 3-25 所 示 。 还 有 一 些 环境 ， 
物理 设备 的 MTU 值 需要 配置 为 高 于 VMkernel (如 9216 字 节 ) ， 以 避免 由 于 额外 的 开销 而 导致 碎片 。 


VMkernel 有 国有 访问 交换 机 
让 执 交换 机 县 况 结 运 配器 加， 访问 交换 机 
MTU 
Y 9000 
存储 阵列 目标 端口 国生 了 六 扩 n 隐 间 症 ”整个 |P 数 据 路 径 


图 3-25 “巨型 帧 数据 路 径 配 置 





实际 上 ， 无 数 的 性 能 研究 表明 ， 在 启用 巨型 帧 后 ， 整 体 网 络 性 能 只 有 一 些小 的 改善 。 因 此 ， 向 客户 做 出 设计 建议 时 ， 关 键 设 
计 因素 考量 依然 发 挥 着 重要 的 作用 ， 如 特定 的 应 用 需求 、 网 络 硬件 需求 、 公 司 政策 需求 ， 以 及 利用 现 有 网 络 基础 架构 发 挥 最 大 系 
统 性 能 的 需求 。 


在 绿色 领域 实施 中 ， 为 了 获得 启用 巨型 帧 的 性 能 优势 的 精确 度量 数据 ， 对 于 特定 的 IP SAN 结 构 ， 应 执行 客户 的 应 用 和 用 例 
来 进行 性 能 测试 。 一 旦 完成 ， 对 做 出 的 结果 进行 全 面 评估 和 比较 ， 以 了 解 客 户 环境 真实 的 性 能 收益 。 


然而 ， 在 已 建成 的 共享 网 络 结构 上 ， 考 虑 运 维 开销 没有 使 用 巨型 帧 ， 而 这 种 架构 又 无 法 提供 显著 的 性 能 优势 ， 因 此 巨型 帧 不 
会 成 为 架构 师 设计 建议 的 一 部 分 。 


3.2.4 iSCSI 设备 命名 标准 


网 络 上 所 有 的 iSCSI 设备 (无 论 是 启动 器 还 是 目标 ) 均 具有 指定 的 名 称 。 为 了 避免 混淆 ，3 种 命名 格式 如 下 : 
“ iSCSI 限定 名 称 (IQN) 

“ 扩展 唯一 标识 符 (EUI) 

. T11 网 络 地 址 颁发 机 构 (NAA) 


iSCSI 限定 名 格式 是 目前 存储 硬件 供应 商 所 采用 的 最 常用 的 命名 标准 ， 而 且 越 来 越 不 太 可 能 遇 到 其 他 两 个 实例 。 因 此 ， 本 书 
仅 关 注 这 个 命名 标准 。 


如 图 3-26 所 示 ， 并 在 表 3-4 中 描述 的 IQN 结 构 是 启动 器 和 目标 之 间 互 相通 信使 用 的 格式 。IQN 地 址 格式 提供 了 一 个 类 型 字 
段 、 日 期 字段 、 命 名 机 构 字段 和 唯一 字符 串 。 


类 型 ”年 /月 命名 机 构 由 命名 机 构 定义 
iqn . 1998-01 . com. vmware . esx01-8765432]1 


图 3-26 iSCSI 限定 名 称 (IQN) 结 
表 3-4 iSCSI 限定 名 称 (IQN) 结 





字 段 己 的 示 例 
Type 此 字段 提供 名 称 类 型 。 所 有 iSCSI 限定 名 称 都 从 IQN 开始 Iqn 
Date 该 字段 提供 公司 (命名 机 构 ) 拥有 名 称 的 日 期 ， 如 示例 所 示 的 年 月 格式 | 1998-01 





此 字段 提供 命名 机 构 的 反 回 名 称 。 这 是 生产 启动 需 或 目标 设备 的 公司 
名 称 

此 字段 提供 由 命名 机 构 创 建 的 唯一 字符 ! 训 在 vSphere 中 ， 它 是 
vSphere E 机 的 名 称 ， 带 有 短 划 线 和 随机 字符 集 ， 如 果 需 要 ， 管 理 员 可 | esx01-87654321 
以 手动 覆盖 它 


Naming Authorlty com.vmware 





Unique String 








3.2.5” CHAP 安全 


隔离 1SCSI 的 流量 虽然 能 够 带 来 安全 方面 的 好 处 ,但 网 络 上 的 恶意 客户 端 仍 有 可 能 通过 iSCSI 网 络 与 存储 系统 或 主机 服务 器 进 
行 通信 。 为 了 降低 这 种 风险 ， 可 以 在 不 可 路 由 的 非 隔离 1SCSI 网 络 之 上 添加 一 个 额外 的 安全 层 。 这 需要 通过 质询 握手 认证 协议 
(CHAP) 来 实现 。 
然而 ， 值 得 注意 的 是 ， 使 用 CHAP 不 会 加 密 vSphere MO 的 流量 ， 而 只 是 作为 保护 连接 的 机 制 。CHAP 机 制 有 两 种 配置 : 单 


向 和 双向 。 这 两 种 选项 的 选择 在 某 种 程度 上 取决 于 硬件 是 否 支 持 密码 要 求 ( 密 钥 ) ， 无 论 启动 器 还 是 目标 设备 。 如 果 不 交换 密 
钥 ， 就 不 能 建 YiISCSI 会 话 。 另 外 ， 除 了 初始 会 话 之 外 ， 还 会 定期 进行 额外 的 哈 希 密码 交换 ， 以 防止 重 放 攻 击 。 


表 3-5 显 示 了 VMware 发 布 的 关于 vSphere 6 支持 的 CHAP 安 全 级 别 的 指南 。 


表 3-5 CHAP 安 全 级 别 











安全 级 别 适配器 支持 描 述 
e 软 件 iSCSI 
无 e 依赖 硬件 iSCSI 无 身份 验证 
e 独立 硬件 iSCSI 
如 果 目 标 需 要 ， 使 用 e 软件 iSCSI 主机 使 用 非 CHAP 连接 ， 但 如 果 目 标 服务 需 需 要 ， 可 以 使 
单 向 CHAP e 依 首 硬件 iSCSI 用 CHAP 连接 
Re e 软件 iSCSI , i ey 
使 用 单 向 CHAP， 除 oe i E 机 使 用 CHAP 连接 ， 但 如 果 目 标 不 支持 使 用 CHAP， 则 
韭 目标 禁止 aio 可 以 使 用 非 CHAP 连接 


e 独 立 硬 件 1SCSI 





e 软件 iSCSI 
利用 单 癌 CHAP e 依 球 硬 件 iSCSI 
e 独 立 硬 件 iSCSI 


主机 服务 器 需要 进行 成 功 的 CHAP 身份 验证 。 如 果 CHAP 


协商 不 成 功 ， 连 接 将 失败 





在 处 位- NelY 
利用 双向 CHAP eg EE 机 服务 器 和 存储 目标 都 支持 使 用 双向 CHAP 
e 依赖 硬件 iSCSI 








实际 上 ， 在 现代 vSphere 虚 拟 数据 中 心中 很 少 看 到 CHAP 实 现 。 原 因 很 简单 ， 如 果 iSCSI 流 量 与 对 交换 机 和 其 他 硬件 的 物理 访 
问 受到 严格 限制 ， 则 过 滤 人 存储/O 数 据 就 不 是 一 项 简单 的 任务 。 此 外 ， 与 网 络 隔离 一 样 ，iSCsI 人 存储 系统 通常 提供 某 种 形式 的 LUN 
掩 码 ， 在 IP 地 址 或 子 网 级 别 使 用 ， 控 制 哪些 设备 可 以 与 存储 目标 通信 。 在 大 多 数 iSCSI 设计 中 ， 这 将 限制 CHAP 提 供 的 附加 安全 
值 ， 因 此 ， 由 于 需要 维护 与 它 相关 联 的 大 量 额 外 操作 开销 ， 它 的 实现 被 认为 是 不 可 行 的 。 


3.2.6 ” ”iSCSI 网络 适 配器 


如 前 所 述 ， 人 存在 两 种 类 型 的 iSCSI 适配器 ， 它 们 都 可 以 作为 主机 服务 器 内 部 的 启动 器 : 基于 软件 的 适配器 和 基于 硬件 的 适 配 
器 。 在 这 里 增加 一 个 额外 的 设计 因素 ， 即 可 以 在 两 个 不 同 的 价位 提供 硬件 启动 器 : 依赖 硬件 iSCSI 适 配器 (也 称 为 TCP 外 载 引擎 
或 TOE 适 配器 ) 和 独立 的 硬件 iSCSI 适配器 (通常 称 为 iSCSI HBA) 。 相 比 其 他 两 个 选项 ， 独 立 的 硬件 iSCSI 适配器 提供 了 显著 的 
性 能 和 增强 功能 ， 但 是 具有 较 高 的 成 本 ， 类 似 于 光纤 通道 HBA。 


iSCSI 协 议 在 OSI 模 型 的 第 1 至 第 6 层 之 间 运 行 。SCSI 命 令 和 负载 数据 在 第 6 层 上 运行 。 然 后 ， 它 们 被 第 5 层 封装 到 iSCSI 协 议 数 
据 单元 (PDU) 中 。 随 后 ， 在 第 4 层 进一步 封装 ， 进 而 是 第 3 层 ， 直 到 最 后 ， 以 太 网 帧 生成 。 此 封装 过 程 可 以 使 用 CPU 周 期 ， 在 
vsSphere 主 机 上 运行 ， 也 可 以 印 载 到 适配器 。 此 外 ， 需 要 在 设计 上 定义 如 何 去 选 择 合适 的 适配器 硬件 用 于 封装 卸载 。 


1.iSCSI 软 件 适 配器 


iSCSI 软 件 适配器 内 置 在 ESXi 虚 拟 机 虚拟 化 层 内 核 中 。 适 配器 允许 使 用 iSCSI 封 装 ， 不 需要 任何 专业 硬件 ， 主 机 的 CPU 和 内 存 
支持 在 软件 中 运行 整个 IP 协 议 栈 ， 并 可 以 与 任何 标准 的 VMware 支持 的 网 络 适 配器 设备 结合 使 用 。 在 大 多 数 情况 下 ， 适 配器 只 是 
生成 以 太 网 帧 ， 并 通过 网 络 传输 到 目标 。 在 这 种 情况 下 ， 物 理 网 络 适 配器 基本 上 无 天 紧要 。 


但 是 ， 正 如 你 所 期 望 的 ， 对 整个 IP 堆 栈 的 这 种 连续 处 理 确实 增加 了 主机 服务 器 上 的 CPU 和 内 人 存 消耗 。 在 制定 计算 资源 设计 时 
应 考虑 到 这 一 点 ， 并 作出 容量 限制 和 规划 ， 以 确保 虚拟 机 负载 和 性 能 不 受 主 机 上 的 存储 MO 操作 的 影响 。 


iSCSI 软件 适配器 可 以 从 vsphere Web 客 户 端 用 户 界 面 进行 配置 。 该 适配器 在 设计 上 引入 了 一 些 额外 的 操作 开销 ， 但 有 助 于 
降低 成 本 ， 因 为 不 需要 购买 专业 硬件 。 正 如 前 面 所 强调 的 ， 基 于 硬件 的 适配器 有 两 种 类 型 。 这 两 种 适配器 类 型 之 间 的 选择 是 一 个 
关键 的 设计 决策 ， 因 为 使 用 iSCSI HBA 蔡 代 TOF 适 配器 类 型 将 显著 地 增加 每 台 主机 的 投入 成 本 ， 如 图 3-27 所 示 。 


2. 依 赖 硬件 iSCSI 适 配器 


如 前 所 述 ， 此 适配器 类 型 通常 称 为 TOE 适 配器 。 这 种 适配器 提供 一 个 混合 选项 ， 因 为 它 不 是 一 个 功能 齐全 的 iSCSI HBA, 但 
它 包 括 一 些 专门 的 硬件 ， 可 以 将 IP 堆 栈 负 载 的 TCP 部 分 从 主机 的 CPU 和 内 人 存 上 印 载 到 适配器 硬件 上 的 专用 芯片 组 电路 中 。 因 此 ， 
选择 此 适配器 类 型 可 以 被 认为 是 折 中 方案 或 中 间 选 项 。 


纪 公 RE 器 | TOS 者 | HeA 
| “scsi 命令 || 6 层 | iSCSI 软 件 适配器 


- 丙 ( ESXi 主机 资源 ) 
| iSCSI 协议 | 5 层 iSCSI 软件 适配器 
(ESXi 主 机 资源 ) 
| 传输 控制 协议 4 iSCSI 主 机 总 线 
TCP 鲫 载 引擎 适配器 (HBA ) 
互联 网 内 议 3 层 (TOE 适配器 资源 ) 
| 网 络 适 配器 /物理 1 和 2 层 物理 网 卡 
封装 操作 


图 3-27 iSCSI 趣 载 适 配器 比较 






































此 适配器 类 型 称 为 依赖 硬件 iSCSI 适配器 ， 因 为 仍然 需 ee 以 便 在 将 iSCSI PDU 传 输 到 TOE 适 配 
器 之 前 处 理 iSCSI PDU 的 创建 ， 然 后 将 其 封装 并 传输 到 iSCSI 网 络 。 请 注意 ， 每 个 TOE 适 配器 必须 与 软件 适配器 进行 一 对 一 的 关 
系 绑 定 。 这 称 为 网 络 端口 绑 定 。 


基于 TOFE 的 适配器 通常 为 iSCSI 卸载 提供 一 个 折 中 方案 ， 即 性 能 和 成 本 之 间 的 平衡 ， 这 在 设计 解决 方案 时 很 常见 。 但 是 ， 如 
果 设计 需求 规定 将 整个 SCSI 从 主机 印 载 到 专用 的 硬件 上 ， 则 独立 的 硬件 iSCSI 适配器 是 唯一 的 设计 选择 。 


3. 独 立 硬件 iSCSI 适 配器 


通常 称 为 SCSI HBA， 此 适配器 类 型 将 整个 iSCSI IP 堆 栈 卸 载 到 适 配 卡 ， 如 图 3-27 所 示 。 使 用 iSCSI HBA， 不 需要 创建 iSCSI 
软件 适配器 ， 因 为 适配器 硬件 可 以 接受 原始 SCSI 命 令 ， 与 光纤 通道 HBA 非 常 相似 。 但 是 ， 与 iSCSI 软件 适配器 或 TOE 适 配器 一 
样 ，iSCSI HBA 仍 然 需要 配置 |P 地 址 和 IQN。 


当 提 及 市 场 上 可 用 的 各 种 适配器 类 型 时 ， 很 容易 令 人 混淆 。 许 多 来 自 不 同 硬件 制造 商 的 聚合 网 络 适 配器 (CNA) 可 以 执行 
多 种 功能 ， 例 如 标准 以 太 网 通信 ， 基 于 TOFE 的 iSCSI 印 载 和 以 太 网 光纤 通道 ， 但 不 能 将 这 些 协议 组 合 在 一 起 同时 运行 。 由 于 这 些 
适配器 通常 使 用 专 有 技术 ， 特 别 是 基于 刀片 式 的 夹层 卡 ， 因 此 最 好 与 硬件 供应 商 联系 ， 以 确保 你 更 清楚 地 了 解 可 用 于 设计 中 的 硬 
件 选 项 。 


4.iSCSI 适 配器 高 可 用 性 


基于 vSphere 的 网 络 适配器 组 合 不 能 在 端口 之 间 提供 最 佳 性 能 或 负载 均衡 ， 因 此 不 推荐 用 于 iSCSI 流 量 。 原 因 是 ， 即 使 配置 
了 多 个 适配器 ，VMkerne| 端 口 只 能 在 单个 接口 上 运行 。 因 此 ， 除 非 发 生 故 障 ， 否 则 始终 使 用 同一 单一 接口 。 即 使 为 iSCSI 流量 创 
建 了 两 个 VMkernel 端 口 ，vSphere 路 由 表 也 只 将 流量 发 送 到 第 1 个 条 目 ， 而 第 2 个 VMkernel 端 口 始终 处 于 空闲 状态 。 直 到 路 由 
表 中 的 第 1 个 条 目 被 重新 配置 或 删除 。 因 此 ， 网 络 端口 绑 定 是 iSCSI 端口 负载 均衡 和 高 可 用 性 的 首选 方法 。 


网 络 端 口 绑 定 允许 使 用 多 个 路 径 来 处 理 到 目标 的 iSCSI MO 流量 ， 因 此 没有 理由 不 在 设计 中 使 用 适配器 来 实现 可 用 性 和 负载 
均衡 。 请 注意 ， 当 启用 端口 绑 定 时 ， 路 由 表 不 再 确定 iSCSI 流量 的 VMkerne| 端 口 路 由 。 路 径 选 择 策略 机 制 (PSP) 确定 哪个 适 配 
器 将 发 送 流量 。 这 减少 了 vsphere 网 络 配置 功能 ， 对 vsSphere 优 化 的 可 插入 存储 架构 (PSA) 有 很 大 好 处 。 


3.2.7 ”虚拟 交换 机 设计 


虚拟 交换 机 的 设计 ， 以 及 采用 vsphere 标 准 交 换 机 或 vsphere 分 布 式 交 换 机 的 决定 ， 需 要 考虑 许多 因素 ， 包 括 虚 拟 交换 机 功 
能 、 许 可 和 虚拟 化 网 络 技术 的 使 用 。 针 对 所 有 这 些 因素 的 详细 讨论 超出 了 本 书 的 范围 。 本 节 仅 介绍 特定 地 址 的 iSCSI 流量 要 求 ， 
并 将 设计 选项 缩减 为 单个 或 多 个 虚拟 交换 机 体系 结构 ， 最 终 由 硬件 、 接 口 数 量 以 及 多 个 适配器 卡 上 的 适配器 接口 布局 来 决定 。 


1. 网 络 I/O 控 制 


vSphere 分 布 式 交 换 机 的 网 络 l/O 控 制 (NIOC) 功能 ,为 ESXi 主 机 内 的 网 络 流量 提供 了 QoS 机 制 。NIOC 可 以 帮助 防止 突 发 
的 vSphere vMotion 流 量 淹没 网 络 ， 并 导致 与 其 他 重要 流量 (如 虚拟 机 管理 和 iSCSI 流 量 ) 产生 争 用 。 除 了 使 用 NIOC 之 
外 ，VMware 还 建议 对 802.1P QoS 标 签 的 流量 类 型 进行 标记 ， 并 相应 地 配置 物理 上 游 管理 交换 机 。 如 果 没有 实现 QoS 标 记 ， 则 
NIOC 配 置 的 值 将 仅 限 于 主机 本 身 内 。 

在 如 图 3-28 所 示 的 设计 实例 中 ， 在 单个 vSphere 分 布 式 交 换 机 上 配置 了 两 个 10Gb/s 上 行 接口 ， 每 个 上 行 接口 承接 来 自 每 台 
主机 的 多 个 流量 。NIOC 监 控 网 络 ， 一旦 发 现 拥塞 ， 它 就 会 自动 将 资源 转移 到 NIOC 策 略 定义 的 最 高 优先 级 的 流量 。 

在 此 示例 中 ， 连 接 到 主机 适配器 的 所 有 物理 网 络 交 换 机 端口 都 配置 为 中 继 端 口 ， 这 是 交换 机 供应 商 的 建议 。 图 3-28 还 显示 
了 使 用 VLAN 逻 辑 上 对 流量 进行 分 段 的 端口 组 ， 在 虚拟 交换 机 级 别 标记 流量 。 虚 拟 和 物理 交换 机 都 配置 为 专门 为 网 络 基础 架构 使 
用 的 VLAN 传 输 流量 ， 而 不 是 中 继 所 有 VLAN。 

这 两 个 10Gbys 网 络 接口 在 所 有 配置 的 VLAN 上 承载 所 有 入 口 和 出 口 以 太 网 流量 。 用 户 定义 的 NIOC 资 源 池 应 按 端 口 组 配置 ， 
如 表 3-6 所 示 。 


表 3-6 网络 I/O 控 制 策略 示例 








端口 组 VLAN ID 份额 数量 限制 (MB/S ) QoS 标签 
虚拟 机 内 部 网 络 101 150 不 限制 2 
VvMotion 网 络 102 250 2500 3 
ESX 管理 网 络 103 100 不 限制 1 
























VLAN ID 份额 数量 限制 (MB/S ) 
104 500 不 限制 5 


不 限制 





端口 组 
iSCSI 网 络 
























105 150 








虚拟 机 DMZ 网 络 





VMkernel 
端口 1 
VMK1 

(VLAN 102 ) 
vMotion 网 络 


100 份 额 150 份 额 550 份 额 500 份 额 150 份 额 


VMkernel 虚拟 机 网 络 
端口 0 (VLAN 105 ) 
(VLAN 103 ) 虚拟 机 
ESX 管 理 网 络 DMZ 网 络 





图 3-28 ”网 络 I/O 〇 控制 设计 实例 


一 般 来 说 ，VMware 不 建议 使 用 限制 ， 因 为 它们 在 使 用 上 加 了 一 个 硬性 的 上 限 。 但 是 ， 如 果 要 将 它们 作为 NIOC 设 计 的 一 部 
分 来 使 用 ， 请 确保 计算 出 有 效 的 MB/s， 并 根据 上 述 示例 所 示 的 可 用 带宽 的 百分比 配置 限制 |。 


表 3-6 所 示 的 QoS 标 签 (802.1P) 与 所 有 传 出 的 数据 包 相 关联 。 这 使 得 兼容 的 上 游 交换 机 能 够 识别 和 应 用 QoS 标签。 默认 设 
置 为 none， 可 以 配置 1 到 7 之 间 的 值 。 


如 示例 所 示 ， 通 过 将 vMotion、 虚 拟 机 和 iSCSI 流 量 划分 到 单独 的 VLAN 支 持 的 端口 组 上 ， 并 在 物理 硬件 上 使 用 共享 和 Qo5S 
机 制 ， 即 使 在 可 能 的 争 用 时 间 内 ， 也 能 够 保持 一 个 令 人 满意 的 iSCSI 存 储 I/O 性 能 水 平 。 


2. 单 虚拟 交换 机 设计 


当 使 用 一 对 10Gbys 适 配器 来 承载 不 仅仅 是 iSCSI 存储 MO 流量 ， 而 且 还 运行 所 有 其 他 主机 和 虚拟 机 网 络 流量 时 ， 创 建 多 个 虚 
拟 交换 机 是 不 可 能 的 ， 也 并 非 必需 。 无 论 设 计 中 要 求 配置 标准 虚拟 交换 机 还 是 分 布 式 虚 拟 交 换 机 ， 均 如 此 。 这 个 典型 的 用 例 的 标 
准 设计 如 图 3-29 所 示 。 









端口 绑 定 项 端口 绑 定 
vmk3:vmnic0 路 征 选 择 策略 vmkd:vmnic 
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图 3-29 单 虚 拟 交 换 机 iSCSI 设 计 


请 注意 ， 此 单 vSwitch 设 计 为 SCSI VMkernel (VMK) 端口 采用 双 活 模式 故障 切换 顺序 。 使 用 此 配置 ， 每 个 VMkernel 端 口 


与 单个 物理 适配器 隔离 。 如 果 活 动 适配器 出 现 故障 ，VMkernel 基 于 设计 将 不 再 处 理 流 量 。 这 种 行为 的 原因 是 ，PSP 将 识别 死路 
径 并 移动 所 有 流量 以 使 用 幸存 路 径 。 另 外 ， 如 果 适 配器 支持 循环 (RR) MO， 则 可 以 同时 使 用 两 个 路 径 ， 数 据 的 吞吐 量 会 得 到 全 
面 的 提升 。 


3. 多 虚拟 交换 机 设计 


多 虚拟 交换 机 设计 适用 于 使 用 专用 适配器 端口 的 环境 ， 具 体 而 言 ， 专 门 用 于 iSCSI MO 流量 ， 如 图 3-30 所 示 。 在 此 设计 示例 
中 ， 部 署 了 一 个 专用 的 iSCSI IP SAN 结 构 ， 以 便 将 存储 流量 完全 隔离 到 自己 的 交换 基础 架构 中 。 


在 此 示例 中 ， 每 个 虚拟 交换 机 上 配置 了 4 个 10Gb/s 物 理 适配器 中 的 两 个 ， 其 中 iSCSI 流 量 被 隔离 到 自己 的 IP SAN 中 。 在 故障 
情况 下 ， 如 果 适 配器 端口 出 现 故 障 ， 则 PSP 会 将 流量 实时 从 故障 网 络 端口 移动 到 剩余 的 活动 网 络 端口 。 
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图 3-30 “多 虚拟 交换 机 iSCSI 设计 


3.2.8 从 SAN 引 导 ISC9| 
只 要 适配器 支持 iSCSI 引导 固件 表 (iBFT) “( 它 是 ACPI 3.0b 标 准 的 组 件 ) ， 即 使 使 用 软件 适配器 类 型 ， 也 完全 支持 在 iSCSI 
环境 中 从 SAN 引 导 。iBFT 配 置 了 查找 引导 目标 和 装载 LUN 所 需 的 详细 信息 ， 即 使 ESXi 虚 拟 化 层 尚未 启动 也 是 如 此 。 


从 设计 的 角度 来 看 ， 从 SAN 配 置 引导 可 以 扩展 主机 故障 域 ， 以 包括 存储 设备 和 和 SAN 本身。 在 数据 中 心 停机 期 间 ， 除 非 交 换 
机 结构 和 目标 存储 设备 可 用 ， 否 则 主机 无 法 启动 。 这 些 风险 应 作为 设计 过 程 的 一 部 分 来 处 理 ， 并 在 适当 的 情况 下 采用 蔡 代 配置 。 


3.2.9 iSCSI 协议 概要 


在 设计 IP SAN 时 ， 你 可 以 遵循 与 标准 IP 网 络 相同 的 许多 准则 。 对 于 iSCSI 连接 ， 将 存储 启动 器 和 目标 隔离 到 一 个 或 多 个 非 路 
由 VLAN 上 ， 或 者 在 需要 时 将 其 更 改 为 专用 的 物理 交换 网 络 ， 是 符合 设计 要 求 的 。 这 种 方法 不 仅 可 以 避免 与 路 由 流量 相关 的 性 能 
下 降 ， 还 可 以 保护 正在 传输 的 存储 数据 ， 而 不 用 加 密 。 


如 果 存 储 系统 支持 iSCSI， 则 可 以 使 用 链 路 聚合 来 跨越 交换 机 实现 聚合 连接 ， 实 现 元 余 和 增加 吞吐 量 ， 如 图 3-31 所 示 。 如 果 
供应 商 的 存储 系统 不 支持 链 路 聚合 ， 则 可 以 在 不 同 的 网 络 适配器 上 配置 多 个 iSCSI 目 标 ， 并 在 它们 之 间 手 动 负载 均衡 启动 器 。 
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图 3-31 聚合 交换 机 IP SAN 设 计 实 例 


3.3 “NFS 存储 传输 协议 


本 章 中 要 讨论 的 第 2 个 基于 IP 的 存储 协议 是 网 络 文件 系统 (NFS) 协议 。 该 协议 也 是 一 个 完善 的 存储 传输 机 制 ， 它 之 前 是 
UNIX 和 Linux 系 统 使 用 的 。 与 iSCSI 协议 一 样 ，NFS 可 以 利用 现 有 的 以 太 网 络 ， 同 时 隔离 在 单独 的 VLAN 上 ， 并 且 也 可 以 支持 路 
由 ， 人 允许 从 任何 位 置 访问 它 。 但 是 ， 与 iSCSI 一 样 ， 在 1Gb/s 以 太 网 络 上 ，NFS 性 能 可 能 受到 限制 ， 并 且 容 易 导 致 存储 瓶颈 。 


同样 重要 的 是 ， 架 构 师 需 要 记 住 ， 网 络 连接 的 存储 设备 使 用 自己 的 ， 通 常 是 专 有 的 操作 系统 和 集成 的 硬件 和 软件 组 件 ， 来 满 
足 其 文件 服务 的 特定 需求 。 它 的 操作 系统 针对 文件 MO 进行 了 优化 ， 因 此 将 比 通 用 服务 器 更 有 效 地 执行 文件 MO。 但 是 ， 由 于 
NFS 是 文件 级 协议 且 不 使 用 VMFS， 因 此 它 不 一 定 支 持 vSphere 虚 拟 化 层 提供 的 所 有 存储 功能 。 


3.3.1 NAS 和 SAN 对 比 
当 我 们 提 到 iSCSI 存 储 时 ， 我 们 通过 IP 存 储 区 域 网 络 或 SAN 来 实现 主机 与 存储 的 连接 。 当 我 们 提 到 通过 NFS 协 议 为 vSphere 
主机 提供 共享 存储 时 ， 我 们 将 其 称 为 网 络 连接 存储 或 NAs 设 备 。 那 有 什么 区 别 呢 ? 


iSCSI SAN 提 供 基于 块 的 存储 解决 方案 ， 而 NAS 是 基于 文件 系统 的 。iSCSI 提 供 块 存储 ，ESXi 主 机 使 用 由 裸 磁 盘 组 成 的 块 设 
备 ， 并 在 块 设备 之 上 构建 VMFS 数 据 存储 。 但 是 ， 在 NAS 环 境 中 ， 存 储 阵列 向 vSphere 主 机 提供 预 配置 的 文件 系统 ， 然 后 
vsphere 主 机 在 远程 存储 设备 上 操作 文件 。 因 此 ，NAs 和 SAN 人 存储 设备 之 间 的 主要 区 别 在 于 它们 如 何 处 理 通 信 。SAN 采 用 光纤 通 
道 或 1SCSI 协 议 ， 而 NAS 存 储 连 接 到 网 络 ， 并 使 用 共享 存储 设备 进行 通信 ， 提 供 了 一 个 独立 的 存储 解决 方案 ， 可 用 于 数据 存储 、 
数据 备份 等 。 


尽管 它们 之 间 存 在 差异 ， 但 与 iSCSI 架构 相关 的 许多 设计 因素 对 NFs 存 储 来 说 也 同样 重要 。 这 些 因 素 包括 : 
* 服务 质量 〈QoS) 

. 网 络 或 VLAN 隔 离 

巨型 帧 


“ 网络 I/O 控 制 


3.3.2”NFS 组 件 


与 iSCSI 协议 一 样 ，NFS 人 存储 模 型 通过 在 主机 、 网 络 和 存储 组 件 内 使 用 各 种 存储 相关 技术 和 机 制 来 实现 存储 操作 。 


NAS 存 储 设备 通过 网 络 以 文件 的 形式 将 数据 从 存储 设备 传输 到 服务 器 。NAS 设 备 管理 其 文件 系统 和 用 户 身份 认证 ， 使 用 这 
些 文件 系 统 存储 虚拟 机 和 其 他 数据 。 在 NFS 环 境 中 ， 由 于 NAS 设 备 本 身 (而 不 是 主机 ) 管理 存储 、 文 件 系统 和 访问 ， 因 此 
vsphere 主 机 无 法 管理 裸 磁 盘 系 统 、 将 其 锁定 或 限制 其 访问 。 


因此 ，VMFSs 不 能 在 NAs 人 存储 设备 上 使 用 。 这 并 不 是 说 客户 机 操作 系统 不 能 像 任何 其 他 网 络 客户 端 那样 使 用 NAs 存 储 ， 而 是 
在 NAS 设 备 上 使 用 VMFS 是 不 可 能 的 。 表 3-7 比 较 了 这 些 技术 的 差别 。 


表 3-7 存储 协议 比较 


网 络 适配器 和 IP 交换 机 


文件 (无 直接 LUN 从 中 到 高 ， 取 决 于 LAN 
访问 ) 的 完整 性 和 存储 设备 硬件 
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NAS 设 备 可 以 专用 于 vSphere 虚 拟 化 基础 架构 ， 也 可 以 作为 客户 机 操作 系统 和 物理 非 vSphere 客 户 端 使 用 的 共享 平台 ， 在 公 
用 网 络 上 提供 共享 或 专用 的 存储 设备 。 例 如 ，NAS 可 以 让 Linux、UNIX 和 Microsoft Windows 用 户 无 颖 地 共享 数据 。 由 于 NAS 
可 以 在 异 构 环境 中 提供 这 种 文件 共享 ， 支 持 多 种 操作 系统 ， 因 此 NASs 存 储 设 备 可 以 支持 比 其 他 协议 更 多 的 客户 端 类 型 ， 从 而 在 
整个 环境 中 促进 存储 系统 的 整合 。 


NAS 





因此 ，NAS 设 备 消除 了 对 多 个 文件 服务 器 和 网 络 基础 架构 的 需求 ， 将 非 虚拟 化 的 客户 端 和 hvSphere 平 台 对 存储 的 使 用 整合 到 
单个 系统 上 ， 为 虚拟 环境 提供 了 优势 ， 并 使 其 更 具有 运 维 效 率 ， 如 图 3-32 所 示 。 
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图 3-32 NAS 网 络 客户 端 


如 前 所 述 ，NASs 使 用 网 络 和 文件 共享 协议 来 实现 对 文件 数据 的 访问 。 这 些 协议 包括 用 于 数据 传输 的 TCP/IP、 通 用 Internet 
文件 系统 (CIFS) ， 以 及 用 于 网 络 文件 服务 的 NFs。 


vSphere 6 支持 两 代 NFs 协 议 。 但 是 ， 之 前 版 本 仅 支 持 NFS 版 本 3。 当 与 兼容 的 存储 设备 结合 使 用 时 ，NFSs V4.1 可 以 改进 对 
窄 数 据 共享 应 用 的 锁定 和 性 能 。 现 在 支持 以 下 主要 功能 : 


: 使 用 Kerberos 进 行 身份 验证 ， 与 安全 认证 机 制 相 结合 ， 提 供 非 root 用 户 以 安全 通信 的 方式 访问 NFS 存 储 设备 上 的 文件 。 


“ 带 内 、 强 制 和 有 状态 的 服务 器 端 锁定 功能 。NFS v4.1 客 户 端 使 用 OPEN 和 CLOSE 方 法 调用 ， 以 便 与 文件 服务 器 进行 有 状态 
的 交互 。 


: 会 话 中 继 ， 提 供 近 平 真实 的 NFS 多 路 径 功 能 。 但 是 ， 这 不 是 并 行 NFS (pNFS) 。 支 持 使 用 多 个 IP 地 址 访问 单个 NFS 卷 ， 通 
过 负载 均衡 和 故障 切换 功能 ， 提 供 改 进 的 性 能 和 可 用 性 。 


* 集成 NFS、mountd 守 护 进程 、 网 络 锁 管理 器 (NLM) 和 网 络 状态 管理 器 (NSM) ， 将 协议 套件 转换 为 单个 协议 ， 以 方便 


跨 防 火 墙 访问 。 
支持 复合 操作 ， 以 便 将 多 个 操作 合并 到 单个 消息 中 。 
` 使 用 委派 的 概念 ， 允 许 客户 端 主动 缓存 文件 数据 。 
. 支持 IPv6 下 的 Auth SYS， 但 尚 不 支持 Kerbetros。 


NAs 的 主要 好 处 是 ， 通 过 数据 的 文件 级 共享 ， 将 网 络 人 存储 的 优势 带 入 vsphere 环 境 中 。 尽 管 NAs 为 了 管理 和 简单 性 牺牲 了 一 
些 性 能 ， 但 它 绝 不 是 二 流 的 技术 。 此 外 ， 使 用 10Gbys 以 太 网 ，NASs 可 以 扩展 用 来 提供 更 高 的 性 能 和 更 低 的 延迟 。 此 外 ， 许 多 
NAS 设 备 支 持 多 个 接口 ， 并 且 可 以 同时 支持 多 个 网 段 。 


在 企业 或 服务 提供 商 vSphere 环 境 中 ，NAS 设 备 通常 是 专用 的 、 高 性 能 的 、 单 用 途 存储 组 件 。 在 这 种 类 型 的 基础 架构 
中 ，NAs 设 备 经 过 优化 ， 可 以 满足 特定 的 vsphere 存 储 要求 ， 其 自身 操作 系统 通常 与 VCenter Server 软 件 的 插件 集成 。NAS 设 备 
非常 适合 于 提供 客户 端 、 服 务 器 和 其 他 操作 的 混合 环境 ， 并 且 能 够 处 理 其 他 任务 ， 例 如 Web 缓 存 和 代理 、 本 地 防火 墙 、 音 频 视 
频 流 和 备份 等 。 


3.3.3 ”NAS 实现 


网 络 连接 的 存储 设备 可 以 通过 各 种 方式 部 署 实 现 ， 具 体 取决 于 存储 供应 商 的 硬件 。 例 如 ， 统 一 的 NAS 将 基于 NAS 和 基于 
SAN 的 数据 访问 整合 到 单个 存储 平台 中 ， 并 提供 了 统一 的 管理 界面 ， 用 于 操作 混合 环境 。 


1. 统 一 NAS 系 统 


统一 的 NAS 系 统 为 CIFS 和 NFS 协 议 提 供 了 文件 访问 和 数据 存储 ， 同 时 还 为 SCSI 和 光纤 通道 存储 设备 的 块 级 数据 的 访问 创造 
了 便利 。 


统一 的 NAS 存 储 阵列 将 一 个 或 多 个 NAS 磁 头 和 和 存储 组 合 到 一 个 系统 中 。NAS 磁 头 连接 到 存储 控制 器 ， 提 供 对 磁盘 子 系统 的 
访问 。 这 些 存 储 控制 器 还 通过 各 自 的 SAN 基 础 架构 提供 与 iSCSI 和 光纤 通道 主机 的 连接 。 存 储 通常 包括 不 同 的 磁盘 类 型 ， 例 如 
SAS、NL-SATA 和 闪存 设备 ， 以 满足 不 同 的 负载 需求 。 


统一 系统 中 的 每 个 NASs 磁 头 都 有 前 端的 以 太 网 端口 ， 它 们 连接 到 IP 网 络 和 后 端 端口 ， 以 提供 与 存储 控制 器 的 连接 。 前 端 端口 
提供 与 客户 端的 连接 ， 并 为 文件 MO 请 求 提 供 服 务 ， 而 后 端 端口 则 提供 与 存储 控制 器 的 连接 。 存 储 控制 器 上 的 iSCSI 和 光纤 通道 端 
口 使 主机 可 以 直接 访问 存储 区 ， 或 通过 块 级 别 的 存储 区 域 网 络 访问 存储 。 


由 于 将 基于 NAS 和 基于 SAN 的 访问 合并 到 单个 存储 平台 中 ， 统 一 的 NAS 系 统 可 能 会 降低 1T 组 织 的 存储 基础 架构 和 管理 成 
本 ， 如 图 3-33 所 示 。 


2.NAS 网 关 


在 企业 或 服务 提供 商 环 境 中 提供 NASs 的 第 2 种 常见 方法 是 ， 提 供 网 关 NAs 设 备 的 体系 架构 ， 它 由 一 个 或 多 个 NAs 磁 头 组 成 ， 
但 是 使 用 外 部 和 独立 管理 的 存储 来 提供 磁盘 后 端 。 
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图 3-33 ”统一 NAS 系 统 架 构 示 例 


与 统一 的 NAs 体 系 架构 类 似 ， 人 存储 共享 给 使 用 块 协议 的 其 他 应 用 和 系统 。 然 而 ， 这 种 解决 方案 中 的 管理 功能 比 统一 的 NAS 
环境 中 的 管理 功能 更 复杂 ， 因 为 NAS 磁 头 和 存储 阵列 硬件 有 独立 的 管理 任务 。 实 际 上 ， 网 关 NAS 设 备 甚至 可 能 不 由 与 后 端 磁盘 
系统 相同 的 存储 制造 商 提供 ， 仍 然 使 用 现 有 的 或 新 的 光纤 通道 基础 架构 。 


网 关 NAS 体 系 架构 通常 比 统一 的 NAS 解 决 方案 更 具有 扩展 性 ， 因 为 NAS 磁 头 和 存储 阵列 可 以 在 需要 时 独立 扩展 。 例 如 ， 可 
以 添加 NASs 磁 头 来 扩展 NAs 设 备 性 能 。 同 样 ， 当 达到 存储 子 系统 限制 时 ， 可 以 通过 向 阵列 添加 容量 来 独立 地 扩展 它 ， 而 不 用 去 
管 NAS 磁 头 的 情况 。 与 统一 的 NAS 解 决 方案 类 似 ， 网 关 NAS 还 可 以 通过 与 SAN 环 境 和 块 级 协议 共享 来 实现 对 存储 容量 的 扩展 利 
用 。 


在 网 关 NAS 体 系 架构 中 ， 前 端 连接 与 统一 存储 解决 方案 类 似 。 通 过 传统 的 光纤 通道 SAN 基 础 架构 ， 实 现 了 网 关 NAS 与 存储 
系统 之 间 的 通信 ， 如 图 3-34 所 示 。 为 了 构建 和 部 署 网 关 NAS 解 决 方案 ， 还 必须 考虑 光纤 通道 设计 的 关键 因素 ， 例 如 数据 的 多 路 
径 、 元 余 结构 和 负载 分 配 等 。 


3.NFS 导 出 


NFS 存 储 协议 具有 导出 的 概念 ， 可 以 认为 它 与 1SCSI 存 储 系统 中 的 目标 相似 ， 如 图 3-35 所 示 。 导 出 是 可 供 系 统 或 用 户 使 用 的 
存储 资源 的 容器 或 目录 。NAs 人 存储 系统 通常 在 Linux 或 UNIX 操 作 系 统 中 有 一 个 名 为 Exports 的 文件 ， 其 中 列 出 了 共享 的 各 种 目 
录 、 谁 可 以 访问 它们 ， 以 及 通过 访问 控制 列表 (ACL) 拥有 哪些 权限 。 





外 外 站 和 。 总 中 00 





Qa Q 1 
本 站 YESS SN | J 
no 
ed 7 A ~ ep EM a 
9 Vy" + 
六 FC SAN 2 IP 网 络 ; 
ia, year i va a 
% . ‘ N SR 7 % 条 
块 数据 访问 国人 SN 网 关 NAS 设 备 文件 访问 





存储 运 维 团 队 





图 3-34 ”网关 NAS 系 统 架 构 示 例 


与 存储 的 任何 逻辑 抽象 一 样 ，NFS 导 出 驻 留 在 与 块 存储 一 起 使 用 的 、 类 似 于 LUN 的 卷 内 。 该 卷 是 后 端 磁盘 系统 的 逻辑 上 的 抽 
象 。 在 某 些 情况 下 ， 卷 可 能 会 消耗 整个 后 端 磁盘 设备 ， 但 通常 只 是 其 中 的 一 部 分 。 后 端 磁盘 设备 是 裸 存储 ， 如 磁盘 池 。 
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图 3-35 ”NFS 导出 堆栈 


4.NFS 挂 载 


也 称 为 挂 载 点 ， 是 指 从 vSphere 主 机 的 角度 导出 。 将 共享 NFS 存 储 连 接 到 vSphere 主 机 的 过 程 非常 简单 ， 通 过 NFS 客 户 端 ， 


将 导出 的 存储 实体 挂 载 上 。 所 以 将 这 些 存 储 实体 称 为 挂 载 点 或 NFS 挂 载 。 
5.NFS 高 级 主机 配置 


在 vSphere 主 机 上 使 用 NFS 数 据 存 储 时 ， 可 以 使 用 多 个 配置 参数 。 表 3-8 说 明了 可 以 在 平台 中 的 每 台 主 机 上 配置 的 高 级 值 
(如 果 需 要 ) ， 支 持 更 加 可 扩展 的 运 维基 础 架构 。 例 如 ， 主 机 服务 器 可 以 挂 载 的 NFS 卷 的 默认 最 大 数量 为 8， 但 是 在 vSphere 6 
中 ， 可 以 将 其 增加 到 256。 如 果 设 计 需 要 超过 8 个 ， 则 还 必须 确保 增加 Net.TcpipHeapSize。 


表 3-8 NFS 高 级 主机 配置 


参 数 描 述 

默认 情况 下 ，NEFS.MaxVolumes 值 为 8。 将 8 设置 为 可 挂 载 到 ESXi 主机 的 NFS 卷 
数 的 硬 限 制 。 如 果 需 要 ， 可 以 更 改 此 功能 ，vSphere 6 最 多 支持 挂 载 到 ESXi 主机 的 
256 个 NFS 卷 。 如 果 将 最 大 NFS 安装 量 增 加 到 默认 设置 8 以上， 请 确保 增加 Net. 
TcpipHeapSize 


NFS.MaxVolumes 


Net.TcpIpHeapSize 是 由 VMkernel 回 TCP/IP 堆 分 配 的 内 存量 (以 MB 为 单位 ) 


Net.TcplpHeapSl 加 EL 
SE 在 vSphere 6 中 ，Net.TcpIpHeapSize 的 最 大 可 配置 值 为 32MB 


Net.TcpIpHeapMax 是 TCP/IP 作为 堆 可 以 消耗 的 最 大 内 存量 。Net.TcpIpHeapMax 
的 最 大 值 为 128MB。 如 前 所 述 ， 对 默认 的 NFS.MaxVolumes 进行 更 改 ， 因 此 必须 相 
应 地 调整 TCP/TP 的 堆 空 间 设 置 。 在 vSphere 6 中 ，Net.TcpIpHeapMax 的 最 大 可 配置 
值 为 1536MB 


Net.TcpipHeapMax 


全 注意 更 改 Net.TcpipHeapSize 或 Net.TcpipHeapMax 需 要 重新 启动 主机 才能 使 更 改 生效 。 





6.NFS 访 问 控制 列表 


vSphere 要 求 对 Export 具 有 读 取 (ro) 和 读 写 (rw) 访问 权限 ， 以 便 能 够 托管 虚拟 机 。 但 是 ， 特 定 的 用 例 (如 共享 的 ISO 
库 ) 可 能 只 要 求 对 Export 具 有 读 取 访 问 权 限 即 可 。 


存储 设备 上 的 特定 权限 配置 因 供应 商 而 异 ， 通 常 制造 商 的 指南 包括 为 Export 分 配 读 写 权 限 ， 并 使 用 no_root squash 人 参数 配 
置 导出 。 这 是 必需 设置 ， 因 为 VSphere 使 用 root 权 限 装 载 NFS 存 储 设备 ， 但 是 默认 情况 下 ，NFS 阵 列 的 软件 可 能 会 对 Export 的 根 
访问 权限 进行 限制 ， 除 非 设置 no_root squash 参 数 。 


NFS ACL 还 可 用 于 IP 地 址 或 子 网 访问 限制 。 例 如 ， 假 设 你 有 两 个 业务 部 门 ， 研 发 (RnD) 和 人 力 资源 (HR) 。 研 发 的 
Export 需 要 被 10.10.20.0/24 子 网 上 的 主机 访问 ，HR 主 机 位 于 10.10.30.0/24 子 网 中 。 要 配置 对 文件 系统 路 径 的 正确 访问 ， 存 储 阵 
列 上 的 Exports 文 件 将 类 似 于 以 下 内 容 : 


/RnD 10.10.20.0/255.255.255.0 (rw) 
/HR 10.10.30.0/255.255.255.0 (rw) 


vSphere 6 支持 的 NFS 版 本 4.1 提 供 的 增强 功能 之 一 是 安全 性 ， 包 括 使 用 Kerberos 人 允许 非 root 用 户 的 身份 验证 。 如 前 所 述 ， 
使 用 NFS 版 本 3， 通 常 由 具有 root 权 限 的 主机 访问 文件 ， 并 且 必 须 使 用 no_root_squash 选 项 配置 NAS 存 储 设备 ， 以 允许 root 用 户 
对 文件 的 访问 ， 这 就 是 所 亩 的 AUTH_SYS 机 制 。 


NFS 版 本 4.1 仍 然 支持 AUTH_SYS 访 问 方式 。 然 而 ， 使 用 Kerberos 是 一 种 更 安全 和 更 有 效 的 方法 。 使 用 Kerberos 时 ， 每 台 主 
机 上 都 定义 了 相同 的 NFS 用 户 ， 使 用 esxcfg-nas-U-v 4.1 命 令 访问 存储 。 此 用 户 可 以 对 存储 设备 进行 远程 文件 访问 。 此 外 ， 需 要 


注意 的 是 ， 必 须 在 访问 存储 设备 的 所 有 主机 上 使 用 相同 的 用 户 账户 ， 否 则 VMotion 操 作 可 能 会 失败 。 最 后 ， 要 使 用 此 方法 ， 必 
须 配 置 使 用 通用 的 Active Directory， 确 保 每 个 vSphere 主 机 都 配置 在 同一 个 Active Directory 域 上 。 


7.NFS 的 网 络 适配器 


与 基于 iSCSI 的 存储 不 同 ，NFS 没 有 特定 的 设计 要 求 ， 也 没有 专门 为 NAS 设 备 设计 的 适配器 类 型 。 但 使 用 包 售 TOE 的 网 络 适 
配器 类 型 有 一 个 优点 ,该 卡 类 型 将 TCP/IP 堆 栈 从 vSphere VMkernel 御 载 到 网 络 适配器 引擎 上 ， 从 而 释放 虚拟 化 层 上 的 CPU 资 
源 。 根 据 硬件 供应 商 的 不 同 ， 大 多 数 适 配器 默认 情况 下 都 包括 TOE 功 能 ， 所 以 供应 商 选 择 不 是 个 问题 。 此 外 ， 在 大 多 数 环境 
中 ，CPU 资 源 不 受 限 制 ， 因 此 ， 在 硬件 供应 商 的 设备 并 没有 原生 支持 TOE 的 设备 之 前 ， 将 其 考虑 进 设计 中 的 价值 会 比较 有 限 。 


8.NFS 虚 拟 交换 机 设计 


与 1SCS| 一 样 ，NFS 环 境 中 可 以 使 用 各 种 选项 进行 虚拟 交换 机 设计 。 许 多 设计 因素 与 虚拟 和 物理 网 络 设计 的 需求 有 关 ， 例 如 
vSphere 分 布 式 交换 机 与 vSphere 标 准 交 换 机 的 使 用 需求 、 功 能 性 需求 和 可 伸缩 性 需求 等 。 此 外 ， 一 些 NFS 存 储 的 设计 因素 也 是 
相关 的 ， 应 该 作为 整个 网 络 设计 的 一 部 分 来 考虑 。 


在 尝试 实现 高 可 用 性 和 高 性 能 时 ，NFS 存 储 在 设计 上 可 能 是 最 具 挑 战 性 的 。 这 源 于 传统 上 vSphere 仅 支持 NFS 版 本 3， 不 提 
供 对 多 路 径 的 支持 。VMware 在 vSphere 6 中 增加 了 对 NFS V4.1 的 支持 ， 当 与 兼容 的 阵列 一 起 使 用 ， 并 设置 vSphere 高 级 存储 功 
能 时 ， 可 以 通过 会 话 中 继 来 支持 负载 均衡 和 多 路 径 。 更 详细 的 内 容 会 在 本 章 的 后 半 部 分 讨论 。 


由 于 NFS 版 本 3 不 支持 多 路 径 ， 因 此 对 于 每 个 导出 ，NFS 只 能 为 MO 维护 一 个 活动 路 径 。 但 这 并 不 意味 着 在 设计 上 ， 我 们 只 能 
接受 NFS 单 点 故障 的 风险 。 在 设计 NFS 版 本 3 的 高 可 用 性 时 ， 完 全 可 以 使 用 被 动 路 径 ， 即 在 任何 一 个 时 间 只 能 有 一 个 路 径 被 激 
活 ， 如 图 3-36 所 示 。 虽 然 NFS 版 本 4.1 通 过 会 话 中 继 实 现 负载 均衡 和 多 路 径 来 支持 更 好 的 性 能 和 可 用 性 ， 但 在 编写 本 文 
时 ，vSphere 不 支持 使 用 并 行 NFS (PNFS) 。 


会 话 中 继 类 似 于 iSCSI 或 光纤 通道 环境 中 的 多 路 径 MO (MPIO) 。 使 用 会 话 中 继 ， 可 以 创建 多 个 路 径 或 会 话 到 NAS 设 备 ， 并 
在 每 个 会 话 中 分 配 负载 。 存 储 阵列 的 软件 和 物理 双 活 模式 或 主动 /备用 架构 ， 决 定 了 多 路 径 是 否 可 以 跨 NAS 控 制 器 实现 ， 或 是 仅 
限于 物理 体系 架构 上 的 单个 点 。 


接 下 来 ， 我 们 介绍 采用 NFS 版 本 3 的 虚拟 交换 机 设计 。 每 个 设计 示例 都 提供 了 多 个 选项 ， 人 允许 配置 多 个 导出 ， 以 方便 存储 
I/O 的 其 他 活动 路 径 使 用 。 


3.3.4” 单 虚拟 交换 机 / 单 网 络 设计 





此 处 介绍 的 单 虚拟 交换 机 设计 是 最 简单 的 配置 ， 最 适合 使 用 10Gb/s 的 存储 网 络 环境 。 在 此 示例 中 ， 已 将 专用 VLAN 配 置 为 
隔离 网 络 存 储 流量 。 如 图 3-36 所 示 ，10.0.10.0/24 是 在 VLAN 250 上 使 用 的 网 段 。 
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图 3-36 单 虚 拟 交 换 机 / 单 网 设计 实例 


在 此 示例 设计 中 ，VLAN 250 是 完全 隔离 的 ， 专 用 于 NFS 流 量 ， 并 且 是 不 可 路 由 的 。VMkernel 端 口 被 放置 到 vSphere 标 准 
交换 机 上 ， 两 个 10Gb/s vmnic 上 行 链 路 连接 到 物理 基础 架构 。 这 些 网 络 接口 已 配置 为 双 活 模式 的 故障 切换 策略 。 但 是 ， 由 于 
VMkerne| 端 口 只 能 与 vmnic 保 持 一 对 一 的 关系 ， 流 量 在 任何 给 定时 间 只 能 通过 一 条 上 行 链 路 。 在 此 示例 中 ， 主 机 将 VMkernel 
端口 放 在 vmnic0 上 。 


在 本 设计 中 ， 如 果 vmnic0 失 败 ，vSphere 主 机 将 VMKkernel 端 口 故障 切换 到 vmnic1。 由 于 这 两 个 vmnic 端 口 在 故障 切换 策略 
中 都 标记 为 活动 ， 所 以 当 链 接 恢 复 到 联机 状态 时 ， 该 链接 将 不 会 返回 到 vmnic0。 这 种 行为 是 设计 上 为 了 避免 在 不 稳定 的 环境 中 
频繁 切换 vmnic 接 口 。 因 此 ， 在 软 维护 时 段 中 ， 故 障 恢复 任务 需要 运 维 团 队 手 动 干预 。 


值得 注意 的 是 ， 如 果 这 种 设计 采用 了 实施 链 路 聚合 控制 协议 (LACP) 负载 均衡 策略 的 vSphere 分 布 式 交换 机 ， 通 过 两 个 
vmnic 组 上 的 链 路 聚合 组 (LAG) 进行 通信 ， 因 为 存在 单个 源 IP 地 址 (VMKkernel 端 口 ) 和 单个 目标 IP 地 址 (导出 ) ， 则 不 太 可 
能 提高 流量 吞吐 量 。 因 此 ，LAG 哈 希 算法 使 用 相同 的 上 行 链 路 端口 ， 在 维护 物理 基础 架构 上 的 LACP 配 置 时 ， 不 会 有 额外 的 性 能 
或 可 用 性 增加 ， 只 会 增加 维护 的 开销 和 复杂 度 。 


与 单 虚拟 交换 机 / 单 网 解决 方案 相关 的 关键 设计 因素 包括 : 
* 在 此 示例 中 ， 存 储 阵列 上 有 一 个 导出 。 设 计 上 可 以 支持 多 个 ， 并 且 可 以 在 两 个 vmnic 端 口 之 间 进 行 负 载 均衡 。 
* 在 本 示例 中 使 用 了 单个 的 NFS 网 络 和 隔离 的 VLAN， 一 般配 置 为 多 个 NFS 实 例 。 
* 本 示例 中 使 用 存储 阵列 上 的 单个 目标 IP 地 址 ， 一 般配 置 为 支持 多 个 地 址 。 


" NFS 导 出 有 一 个 单独 的 活动 路 径 。 


3.3.5 。 单 虚拟 交换 机 /多 网 络 设计 


NFS 版 本 3 的 一 个 限制 是 ， 每 个 导出 只 能 使 用 一 个 活动 的 |/O 路 径 。 实 现 多 个 存储 路 径 的 一 个 设计 方法 是 在 不 同 的 网 络 上 使 
用 多 个 导出 ， 以 便 在 所 有 可 用 接口 之 间 平 衡 流量 。 

如 图 3-37 所 示 ， 此 设计 通过 在 新 网 络 10.0.11.0/24 上 添加 第 二 个 VMkerne| 端 口 来 扩展 上 述 示例 。 然 而 ， 这 需要 网 络 上 的 额 
外 配置 以 及 目标 存储 阵列 支持 。 首 先 ， 阵 列 必须 能 够 支持 多 个 目标 IP 地 址 。 这 通常 由 存储 供应 商 通 过 虚拟 IP (VIP) 或 逻辑 IP 地 
址 (LIP) 将 多 个 IP 地 址 关联 到 单个 接口 来 实现 。 如 果 需 要 ， 还 可 以 通过 添加 额外 的 MO 卡 来 向 阵列 系统 提供 更 多 的 目标 端口 ， 并 
将 所 需 的 IP 地 址 和 配置 ， 分 配给 新 的 物理 接口 来 实现 。 这 种 方法 增加 了 NAs 设 备 前 端 端口 吞吐 能 力 。 


配置 如 图 3-37 所 示 。 每 个 导出 都 已 在 唯一 的 网 段 上 分 配 了 一 个 目标 IP 地 址 。 


如 果 此 设计 仅 使 用 两 个 物理 vmnic 接 口 ， 则 需要 配置 主动 /未 使 用 的 故障 切换 策略 ， 以 避免 两 个 V/Mkerne| 端 口 在 端口 中 断 期 
间 使 用 或 尝试 使 用 同一 个 vmnic 的 风险 。 然 而 ， 这 样 的 设计 将 导致 vmnic 成 为 单 点 故障 。 如 图 3-37 所 示 的 架构 故障 切换 策略 在 表 
3-9 中 进行 了 详细 的 说 明 ， 可 以 看 到 体系 架构 中 不 存在 单 点 故障 。 


表 3-9 vmnic 配 置 设计 示例 








vinnic0 活动 
vmk4 NFS-01 

vinnicl 活动 

vinnic2 活动 
vmks5 NFS-02 

vimnic3 活动 











在 这 种 设计 方案 的 典型 用 例 中 ， 主 机 具有 大 量 的 1Gb/s 接 口 ， 设 计 要 求 在 多 个 可 用 的 上 行 链 路 之 间 实 现 高 可 用 性 和 负载 均 
衡 。 此 配置 有 助 于 降低 低 带 宽 接 口 的 饱和 度 ， 同 时 仍 可 为 一 系列 故障 情况 提供 活动 /备用 模式 的 高 可 用 性 故障 切换 策略 ， 包 括 适 
配器 故障 、 交 换 机 端口 故障 和 物理 交换 机 故障 ， 此 外 ， 配 置 中 均 采 用 了 宛 余 的 物理 设备 。 在 10Gb/s 网 络 设计 中 ， 这 种 多 网 络 解 
决 方案 相对 单 网 络 解决 方案 而 言 没有 什么 优势 。 
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图 3-37 单 虚 拟 交 换 机 /多 网 络 设计 实例 
单个 虚拟 交换 机 /多 网 络 解决 方案 架构 的 关键 设计 因素 包括 : 

“ 该 阵列 有 多 个 存储 路 径 ， 每 个 导出 一 个 。 

“ 存储 阵列 系统 上 有 多 个 导出 。 

- 存储 阵列 系统 上 配置 了 多 个 IP 地 址 。 


: 配置 多 个 NFS 网 络 ， 并 维护 多 个 NFS 隔 离 VLAN。 


3.3.6 _vSphere 6 NFS 4.1 版 本 限制 


在 写作 至 此 时 ， 使 用 NFS 4.1 版 数据 存储 和 vSphere 核 心 功能 时 仍 存在 着 一 些 限 制 。 然 而 ， 随 着 版 本 的 更 新 ， 一 些 问 题 得 以 
解决 。 建 议 你 查询 最 新 的 VMware 官 方 文档 ， 以 确认 该 功能 是 否 已 提供 。 在 vSphere 6.0 中 ，NFS V4.1 不 支持 人 存储 DRS、 存 储 
MO 控制 、Site Recovery Manager、vSphere Storage APls for Array Integration (VAAI) ， 以 及 Virtual Volumes。 此 外 ， 
只 支持 对 称 多 处 理 容错 (SMP-FT) 虚拟 机 。 之 前 vSphere 版 本 的 传统 FT 机 制 也 不 支持 NFS V4.1。 综 上 ,与 NFS V4.1 设 计 有 关 
的 限制 包括 : 


" NFS 版 本 3 和 版 本 4.1 数 据 存储 可 以 共存 在 同一 人 台 主 机 上 。 


. 你 可 以 将 NFS 卷 以 版 本 3 或 4.1 方 式 挂 载 ， 但 不 能 同时 使 用 ， 因 为 它们 采用 不 同 的 锁定 机 制 。NFS 版 本 3 使 用 专 有 的 客户 端 协 
作 锁 定 ， 而 NFS V4.1 使 用 服务 器 端 锁定 。 同 时 使 用 可 能 会 导致 数据 损坏 。 


. 版 本 4.1 的 升级 需要 使 用 SvMotion， 以 不 中 断 的 方式 从 NES 版 本 3 迁移 到 4.1 数 据 存储 ， 直 接 就 地 升级 是 不 行 的 。 


. NFS 4.1 不 支持 硬件 加 速 (VAAI) ， 因 此 ， 你 无 法 在 NEFS 4.1 版 数据 存储 ( 仅 限 精简 置 备 ) 上 创建 完整 置 备 虚拟 磁盘 ， 或 
使 用 任何 VAALNAS 技 术 ， 例 如 快速 文件 克隆 。 


3.3.7 NFS 协议 小 结 


正如 本 章 所 述 ，NFS 协 议 虽 然 是 特定 用 户 场景 下 的 一 个 很 好 的 选择 ， 但 确实 有 一 些 不 足 之 处 。 它 是 支持 业务 的 最 简单 的 协 
议 ， 因 此 ， 企 业 或 服务 提供 商 环 境 中 的 可 扩展 性 也 必须 在 设计 之 初 就 开始 考虑 ， 以 便 满 足 企业 业务 增长 的 需求 。 例 如 ，10Gbys 
交换 和 分 配 存 储 I/O 流 量 跨 多 个 网 络 接口 导出 是 关键 的 可 扩展 性 需求 ， 在 设计 之 初 就 要 考虑 。 此 外 ，NFS 的 功能 和 功能 限制 对 于 
满足 客户 先决 条 件 起 到 决定 性 作用 。 


3.4 以太 网 光纤 通道 协议 


以 太 网 光纤 通道 (FCoE) 是 本 章 中 要 讨论 的 最 新 的 存储 协议 。FCoE 将 以 太 网 的 灵活 性 和 光纤 通道 的 无 损 可 靠 性 集成 在 一 个 
单一 的 融合 网 络 基础 架构 协议 中 ， 为 每 种 流量 类 型 在 独立 的 隔离 环境 中 运行 提供 了 若干 明显 的 优势 。 


如 你 所 见 ， 传 统 的 LAN 基 础 架构 可 以 为 |P 人 存储 网 络 提供 一 个 有 效 运行 的 平台 。 人 存储 协议 (如 iSCSI 和 NFS) 都 在 基于 IP 的 网 
络 上 使 用 TCP 和 /或 UDP。 与 原生 的 光纤 通道 结构 相 比 ， 在 部 署 低 成 本 存储 解决 方案 时 ， 这 种 灵活 性 使 得 IP SAN 成 为 一 种 有 竞争 
力 的 选择 。 然 而 ， 这 些 基于 IP 的 存储 协议 的 性 能 始终 是 一 个 被 关注 的 问题 ， 与 4、8、16Gb/s， 甚 至 20Gb/s 的 光纤 通道 环境 提供 
的 增强 性 能 相 比 ，IP 存 储 网 络 通常 只 有 1Gb/s。 因 此 ， 大 多 数 企 业 IT 组 织 和 服务 提供 商 数 据 中 心 通常 会 维护 单独 的 网 络 来 处 理 每 


种 流量 类 型 。 


然而 ,为 了 支持 这 些 多 网 络 协 议 ， 数据 中 心中 的 服务 器 必须 配备 多 个 元 余 的 物理 网 络 接口 ， 例 如 多 个 以 太 网 和 光纤 通道 适 配 
器 卡 。 此 外 ， 为 了 实现 所 需 的 通信 ， 必 须 实施 不 同类 型 的 网 络 交 换 机 和 物理 布线 的 基础 架构 ， 这 会 增加 数据 中 心 运 维 的 总 体 成 本 


和 复杂 性 。 


随 着 时 间 的 推移 ，10G 以 太 网 越 来 越 受 欢迎 ， 这 种 基于 IP 的 人 存储 协议 技术 对 企业 和 服务 提供 商 的 吸引 力 越 来 越 大 ， 因 为 IP 存 
储 协议 的 性 能 限制 不 再 是 个 受到 关注 的 问题 。 然 而 ， 那 些 已 经 向 光纤 通道 网 络 投入 了 大 量 资 金 的 公司 不 愿 放 弃 其 经 过 验证 的 解决 
方案 ， 转 去 采用 1IP 存 储 协议 这 种 完全 不 同 的 运 维 模式 技术 。 


数据 中 心 桥接 (DCB) 也 称 为 融合 增强 型 以 太 网 (CEE) ， 通 过 提供 处 理光 纤 通 道 流量 所 需 的 额外 增强 功能 ， 帮 助 弥 补 传统 
光纤 通道 模型 和 基于 以 太 网 的 IP SAN 网 络 模型 之 间 的 差距 。DCB 采 用 10G 以 太 网 基础 架构 ， 支 持 传统 的 IP SAN 技 术 ，DCB 还 可 
以 在 同一 物理 基础 架构 支持 以 太 网 光纤 通道 ， 从 而 将 光纤 通道 的 功能 和 可 靠 性 与 以 太 网 的 灵活 性 相 结合 ， 如 图 3-38 所 示 。 
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图 3-38 “以太 网 光纤 通道 融合 协议 


数据 中 心 桥接 
( 融合 增强 型 以 太 网 ) 
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以 太 网 光纤 通道 帮助 上 T 组 织 和 服务 提供 商 解决 了 一 大 挑战 ， 即 使 用 DCB 技 术 来 拥有 多 个 离散 网 络 基础 架构 。 采 用 DCB 并 使 用 
相同 的 物理 链 路 ， 通 过 以 太 网 发 送 光纤 通道 帧 ， 数 据 中 心 的 MO 卡 、 电 缆 和 物理 交换 机 数量 可 以 减少 高 达 50%。 


虽然 成 本 节约 是 显而易见 的 ， 但 所 需 的 交换 硬件 不 是 标准 的 以 太 网 或 光纤 通道 设备 ， 这 意味 着 没有 机 会 利用 现 有 的 网 络 基础 
架构 的 设备 。 此 外 ， 以 太 网 光纤 通道 的 距离 限制 可 能 是 一 个 约束 ， 如 表 3-10 所 示 。 


表 3-10 ”以 太 网 光纤 通道 距离 限制 
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3.4.1 ”以 太 网 光纤 通道 协议 原理 


以 太 网 光纤 通道 协议 将 整个 光纤 通道 帧 ， 包 括 起 始 帧 (SOF) 和 结束 帧 (EOF) ， 封 装 到 单个 FCoE 封 包 中 ， 并 最 终 封装 到 
一 个 以 太 网 帧 里 。 


以 太 网 帧 中 的 每 个 光纤 通道 包 的 大 小 约 为 2500 字 节 ， 包 括 2112 字 节 的 有 效 负载 和 所 有 附加 的 报头 元 数据 。 与 其 他 以 太 网 帧 


类 型 不 同 ，FCoE 帧 在 通过 网 络 时 不 能 被 分 割 。 因 此 ， 如 果 数 据 路 径 中 的 任何 交换 机 不 支持 帧 大 小 ， 它 将 被 丢弃 。 此 外 ， 与 传统 
的 巨型 帧 不 同 ， 传 统 巨 型 帧 最 大 可 以 到 9000 字 节 ， 可 以 传送 更 多 的 负载 数据 。FCoE 帧 大 小 始终 是 固定 的 ， 不 能 超过 2500 字 节 。 
此 外 ， 以 太 网 光纤 通道 协议 对 帧 本 身 的 组 成 有 严格 的 要 求 ， 如 图 3-39 所 示 。 


这 种 行业 标准 的 以 太 网 增强 特性 将 以 太 网 管道 的 带宽 划分 为 8 个 虚拟 通道 ，DCB 功 能 将 不 同 的 数据 类 型 分 为 不 同 的 服务 等 级 
(CoS) 。 以 太 网 光纤 通道 网 络 可 配置 多 达 8 个 Cos 值 ， 每 个 虚拟 通道 一 个 。 然 后 ， 该 机 制 相应 地 将 以 太 网 管道 的 带宽 划分 到 8 个 
虚拟 通道 中 ， 从 而 使 DCB 能 够 确定 如 何在 整个 网 络 中 分 配 这 些 虚 拟 通道 的 带宽 。 


每 个 CoS 值 为 特定 的 流量 类 型 保留 特定 的 带宽 段 ， 即 使 在 超过 配额 的 系统 中 也 提供 了 一 定 程度 的 数据 流 管理 。 每 个 CoS 都 可 
以 具有 与 其 相关 的 不 同属 性 ， 以 便 控制 以 太 网 光纤 通道 交换 机 和 终端 设备 如 何 处 理 特定 的 流量 类 型 。 例 如 ，Best Effort 是 一 个 预 
定义 的 系统 类 (CoS 值 ) ， 用 于 为 以 太 网 流量 预 留 的 通道 设置 服务 质量 (QOS) 。 该 系统 类 的 一 些 属性 是 预 设 的 ， 不 能 被 修 
改 ， 例 如 它 的 丢弃 策略 ， 人 允许 它 在 需要 时 丢弃 数据 包 。 同 样 ， 光 纤 通 道 系统 类 (为 光纤 通道 流量 预 留 的 通道 设置 服务 质量 ) 也 具 
有 一 些 无 法 修改 的 预 设 属性 ， 例 如 无 丢弃 策略 ， 它 保证 不 会 丢弃 光纤 通道 数据 包 。 


DCB 由 各 种 子 协 议 组 成 。 表 3-11 简 要 介绍 了 其 组 成 部 分 。 


| 以 太 网 FCoE 
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图 3-39 ”以 太 网 光纤 通道 帧 
表 3-11 数据 中 心 桥 接 属性 


电缆 类 型 


优先 流量 控制 
(PFC ) 


IEEE 标准 和 

通过 在 IEEE 802.1P 通道 上 启用 PAUSE 功能 来 提供 服务 流 级 别 控制 
这 样 做 可 以 控制 两 台 设 备 之 间 如 何 处 理 拥塞 

管理 带宽 并 根据 流量 类 别 为 IEEE 802.1P 通道 组 分 配 优先 级 ， 因 为 有 
多 种 类 型 的 流量 帝 争 固定 的 带宽 。 这 对 于 确保 应 用 获得 满足 服务 级 别 所 
IEEE 802.1Qaz | 需 的 带宽 至 关 重 要 。ETS 允许 运 维 团队 来 决定 Cog 的 值 ， 确 保 任 一 时 刻 
相应 的 带宽 量 。 此 外 ，ETS 还 提供 了 一 种 机 制 ， 用 于 将 未 使 用 的 带宽 重 
新 分 配给 其 他 CoS 值 (如 果 需 要 ) 

提供 增强 以 太 网 的 自动 协商 功能 。 当 主机 被 初始 化 时 ， 其 CNA 使 
用 DCBX 来 了 解 FCoE 交换 机 支持 哪些 功能 。 此 外 ， 许 多 DCB 参数 
(如 Cos 配置 ) 将 自动 传输 到 主机 ， 无 须 手动 配置 ， 同 时 也 支持 跨 交换 机 
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链 路 
( 续 ) 
电缆 类 型 IEEE 标准 描 述 
为 网 络 链 路 提供 量化 的 拥塞 通知 。 它 还 提供 一 个 全 网 拥塞 管理 解决 方案 ， 
拥塞 通知 IEEE 802.1Qau 对 TCP 也 具有 类 似 的 功能 。 相 比 PFC 在 设备 之 间 和 暂停 流量 ,拥塞 通知 会 


尝试 限制 流量 ， 以 避免 使 用 PFC 





3.4.2 ”以 太 网 光纤 通道 物理 组 件 


以 太 网 光纤 通道 基础 架构 需要 各 种 不 同 的 组 件 共同 协作 ， 其 中 许多 组 件 是 专 有 的 ， 因 此 只 能 与 该 供应 商 的 其 他 设备 结合 使 
用 。 


1. 网 络 转换 适配器 


融合 网 络 适 配器 (CNA) 将 标准 以 太 网 网 络 适 配器 和 光纤 通道 HBA 的 功能 组 合 到 一 个 硬件 设备 中 ， 整 合 了 两 种 流量 类 型 。 
该 适配器 不 需要 为 每 种 类 型 的 流量 部 署 单独 的 硬件 和 电缆 ， 因 此 减少 了 主机 所 需 的 服务 器 插 槽 数量 和 接 入 交换 机 所 需 的 交换 机 端 
口 数量 。 


与 本 章 前 面 介 绍 的 TOE 适 配器 一 样 ，CNA 将 FCoFE 协 议 处 理 任务 从 主机 服务 器 印 载 到 自己 的 必 片 组 上 ， 从 而 释放 服务 器 CPU 
和 内 存 资 源 进 行 应 用 处 理 。CNA 心 片 组 包含 用 于 10Gb 以 太 网 、 光 纤 通 道 和 FCoE 专 用 集成 电路 (ASIC) 的 独立 模块 。FCoE 的 
ASIC 将 光纤 通道 帧 封装 成 以 太 网 帧 。 该 ASIC 的 一 端 连接 到 10GbE 和 光纤 通道 ASIC， 用 于 服务 器 连接 ， 而 另 一 端 则 提供 10GbE 接 
口 ， 将 上 行 链 路 连接 到 FCoE 交 换 机 ， 如 图 3-40 所 示 。 
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图 3-40 ”融合 网 络 适 配器 (CNA) 


2. 以 太 网 光纤 通道 交换 机 


以 太 网 光纤 通道 交换 机 具有 以 太 网 和 光纤 通道 交换 机 功能 。 此 外 ，FCoE 交 换 机 还 具有 光纤 通道 转发 器 (FCF) 、 以 太 网 


桥 、 以 太 网 端口 组 以 及 可 选 的 光纤 通道 端口 。FCF 的 功能 是 将 端口 接收 的 光纤 通道 帧 封装 到 FCoE 帧 中 ， 并 将 以 太 网 桥接 收 的 
FCoE 帧 解 封装 成 光纤 通道 帧 ， 如 图 3-41 所 示 。 


以 太 网 类 型 用 于 指示 哪个 协议 被 封装 在 以 太 网 帧 的 有 效 负载 中 。 以 太 网 光纤 通道 帧 的 以 太 网 类 型 始终 为 8096， 用 于 交换 机 
识别 FCoFE 帧 并 进行 相应 地 操作 。FCoE 交 换 机 收 到 进入 的 流量 后 ， 会 检查 传 入 帧 的 以 太 网 类 型 ， 并 用 它 来 确定 目的 地 。 如 果 帧 的 
以 太 网 类 型 为 FCoE (8096) ， 则 交换 机 会 识别 该 帧 所 包含 的 光纤 通道 负载 ， 并 将 其 转发 到 光纤 通道 转发 器 。 在 光纤 通道 转发 
器 ， 光 纤 通 道 帧 从 FCoFE 帧 中 提取 出 来 ， 通 过 光纤 通道 端口 传输 到 目标 光纤 通道 SAN 或 者 直接 传输 到 存储 设备 。 如 果 以 太 网 类 型 
不 是 FCoE， 则 交换 机 按照 以 太 网 流量 类 型 处 理 流量 ， 并 通过 以 太 网 端口 转发 。 
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图 3-41 以 太 网 光纤 通道 交换 机 架构 


3.4.3 ”以 太 网 光纤 通道 基础 架构 
图 3-42 说 明了 采用 FCoE 交 换 机 和 CNA 的 以 太 网 环境 中 如 何 做 |/O 整 合 。 正 如 之 前 所 介绍 的 ， 以 太 网 光纤 通道 架构 减少 了 主 


机 服务 器 中 多 个 网 络 适 配器 连接 到 不 同 网 络 的 需求 ， 并 减少 了 多 种 电缆 类 型 和 交换 机 的 基础 架构 需求 。 此 外 ， 多 个 网 络 基础 架构 
被 整合 ， 也 降低 了 环境 的 运 维 管理 成 本 ， 硬 件 设备 的 需求 也 减少 了 。 


3.4.4 ”以太 网 光纤 通道 设计 选项 


以 太 网 光纤 通道 设计 采用 两 种 基本 方法 : 
. 边缘 以 太 网 光纤 通道 设计 


端 到 端 以 太 网 光纤 通道 设计 


1. 边 缘 以 太 网 光纤 通道 设计 


在 边缘 以 太 网 光纤 通道 模式 下 ， 接 入 层 交 换 机 必须 支持 FCoE、 光 纤 通 道 和 以 太 网 协议 。 单 一 的 连接 类 型 虽然 是 元 余 配 置 ， 
但 提供 了 从 主机 到 接 入 层 交 换 机 的 聚合 [FCoE 连接 。 接 入 层 交换 机 和 汇聚 层 之 间 的 连接 只 要 支持 传统 的 以 太 网 和 本 地 光纤 通道 协 


议 即 可 。 因 此 ， 在 本 设计 模型 中 ， 不 需要 汇聚 层 交 换 机 做 汇聚 。 


如 图 3-42 所 示 ， 从 接 入 层 到 SAN 交 换 机 的 连接 实现 方式 ， 是 使 用 光纤 通道 1SL 从 汇聚 接 入 层 连接 到 光纤 通道 SAN 交 换 机 ， 每 
个 接 入 层 交换 机 只 连接 一 个 光纤 通道 结构 A 或 B。 如 果 配 置 不 正确 ， 可 能 会 导致 网 络 结构 合并 。 此 外 ， 这 种 架构 中 也 不 建议 设置 


分 区 和 掩 码 。 


如 图 3-43 所 示 ， 使 用 此 模型 示例 的 是 Cisco 的 UCS 刀 片 系 统 。 该 模型 非常 适合 迁移 到 以 太 网 光纤 通道 协议 的 环境 。 它 提供 了 


一 个 混合 的 环境 ,支持 两 种 协议 ， 设 计 上 更 能 够 体现 灵活 性 。 
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图 3-42 ”FCoE 基础 架构 示例 (Cisco UCS 刀 片 系 统 ) 
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图 3-43 ”边缘 以 太 网 光纤 通道 设计 


2. 端 到 端 以 太 网 光纤 通道 设计 


在 端 到 端 以 太 网 光纤 通道 设计 中 ， 汇 聚 网 络 进一步 向 北 延 伸 到 汇聚 层 。 但 是 ， 每 个 FCoE 交 换 机 都 是 单个 FCoE 结 构 的 成 员 ， 
同样 ， 你 也 不 希望 像 以 太 网 环境 中 那样 进行 交 


行 交叉 连接 配置 。 此 设计 中 能 看 到 的 连接 ， 只 有 每 个 接 入 层 交 换 机 之 间或 同一 结构 中 的 
多 个 交换 机 之 间 连 接 到 汇聚 层 交 换 机 。 


如 图 3-44 所 示 ， 在 该 模型 中 ， 存 储 器 直接 连接 到 汇聚 层 ， 而 不 是 与 核心 网 络 相连 。 由 于 汇聚 层 交 换 机 和 核心 之 间 通 常 不 存 
在 二 层 连 接 :， FCoE 流 量 不 能 通过 该 链 路 ， 因 为 它 是 不 可 路 由 的 。 这 种 设计 模式 通常 最 适合 新 的 “绿地 ”部 署 ， 因 为 从 共存 的 角 
度 来 看 ， 通 常 它 不 是 那么 灵活 。 
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图 3-44” 端 到 端 以 太 网 光纤 通道 设计 


3.4.5 ”以 太 网 光纤 通道 协议 概要 


在 以 太 网 环境 中 部 署 汇聚 的 光纤 通道 的 关键 设计 因素 包括 (但 不 限于 ) 以 下 内 容 : 
“FCoE 是 一 种 通过 以 太 网 传输 光纤 通道 数据 的 协议 。 

* FCoE 需 要 考虑 存储 网 络 设计 ， 原 因 如 下 。 

` 它 可 以 将 光纤 通道 SAN 流 量 和 以 太 网 流量 整合 到 通用 的 融合 网 络 基础 架构 上 

:减少 了 所 需 的 适配器 、 交 换 机 端口 和 电缆 的 数量 。 

* 可 以 降低 支出 成 本 ， 简 化 数据 中 心 管理 


` 可 以 降低 电力 和 冷却 成 本 ， 同 时 降低 数据 中 心 的 占 地 面积 。 


在 任何 关键 业务 环境 中 ，vSphere 主 机 必须 能 够 通过 多 个 路 径 访 问 存储 阵列 上 的 卷 ， 以 便于 故障 切换 ， 并 在 某 些 情况 下 实现 
流量 负载 均衡 。 从 主机 到 卷 的 多 个 路 径 被 称 为 多 路 径 。 


vSphere 主 机 支持 多 路 径 ， 支 持 在 HBA 卡 中 断 ，Fabric 交 换 机 、 存 储 控制 器 或 光纤 通道 电 统 发 生 故 障 的 情况 下 ， 维 护 服 务 器 
和 存储 设备 之 间 的 恒定 连接 。 多 路 径 支持 不 需要 特定 的 故障 切换 驱动 程序 。 然 而 ， 为 了 支持 路 径 切 换 ， 服 务 器 确实 需要 配置 两 个 
或 多 个 HBA 卡 ， 使 用 一 个 或 多 个 交换 机 连接 存储 阵列 。 


如 图 3-45 所 示 ， 为 了 提供 对 光纤 通道 存储 设备 的 元 余 访 问 ， 每 台 主 机 连接 到 多 个 路 径 。 在 此 光纤 通道 多 路 径 示 例 中 ， 如 果 
HBA0 或 HBA0 与 光纤 通道 交换 机 之 间 的 链 路 发 生 故 障 ，HBA1 将 接管 并 提供 主机 与 光纤 结构 之 间 的 连接 。 一 个 HBA 接 管 另 一 个 
HBA 的 过 程 被 称 为 HBA 故 障 切换 。 同 样 ， 如 果 存 储 控制 器 A 发 生 故 障 ， 或 存储 控制 器 A 与 光纤 交换 机 之 间 的 链 路 停止 工作 ， 则 存 
储 控制 器 B 接 管 并 提供 交换 机 与 存储 设备 之 间 的 连接 。 这 个 过 程 称 为 存储 控制 器 故障 切换 。vSphere 的 多 路 径 功能 支持 HBA 和 控 





制 器 故障 切换 。 
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图 3-45 ”光纤 通道 多 路 径 示例 配置 


在 引入 VMware 多 路 径 模块 之 前 ， 我 们 还 必须 考虑 双 活 模式 和 活动 /备用 模式 磁盘 阵列 之 间 的 差异 。 双 活 模式 磁盘 阵列 允许 
通过 所 有 可 用 的 存储 控制 器 同时 访问 卷 。 在 双 活 模式 阵列 中 ， 除 非 出 现 路 径 故 障 ， 否 则 所 有 路 径 始终 处 于 活动 状态 。 相 反 的 ， 在 
活动 /备用 模式 磁盘 阵列 中 ， 一 个 存储 控制 器 正在 主动 地 为 给 定 的 卷 提 供 服 务 ， 而 另 一 个 存储 控制 器 充当 该 卷 的 备份 ， 并 且 可 能 


正在 主动 为 其 他 卷 的 MO 提供 服务 。 在 活动 /备用 模式 阵列 中 ，MO 仅 发 送 到 活动 的 处 理 器 ， 如 果 活 动 存储 控制 器 发 生 故 障 ， 则 畏 
助 存储 控制 器 会 自动 变 为 活动 的 ， 无 需 管理 员 干 预 。 


在 图 3-46 中 ， 一 个 存储 控制 器 向 一 组 卷 提供 活动 阵列 ， 另 一 个 是 备用 阵列 ， 数 据 只 通过 活动 阵列 到 达 。 使 用 活动 /备用 模式 
阵列 ， 如 图 3-46 所 示 ， 再 加 上 固定 路 径 策 略 ， 可 能 会 导致 路 径 抖 动 。 当 两 台 主 机 服务 器 通过 不 同 的 存储 控制 器 访问 存储 阵列 上 
的 同一 个 卷 时 ， 会 发 生路 径 抖 动 ， 因 此 ， 由 于 完成 每 个 /O 请 求 所 需 的 时 间 长 ， 卷 的 吞吐 量 较 低 。 


为 了 避免 路 径 拌 动 : 
: 确保 在 活动 /备用 模式 阵列 上 共享 同一 组 卷 的 所 有 主机 访问 同一 个 存储 控制 器 。 
“ 更 正 主机 与 SAN 目 标 之 间 的 任何 布线 不 一 致 ， 确 保 所 有 HBA 按 照相 同 的 顺序 查看 相同 的 目标 。 


. 除非 存储 供应 商 另 有 说 明 ， 请 确保 将 路 径 策略 设置 为 “最 近 使 用 ” 《默认 为 活动 /备用 模式 存储 设备 ) 。 
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图 3-46 ”活动 /备用 模式 磁盘 阵列 


解决 路 径 抖 动 问题 的 另 一 种 方法 是 非 对称 逻 辑 单元 访问 (ALUA) ， 如 图 3-47 所 示 。ALUA 是 一 种 允许 存储 阵列 使 用 控制 器 
之 间 的 互 连 来 服务 |/O 的 技术 。 在 具有 ALUA 功 能 的 阵列 中 ， 可 以 通过 两 个 存储 控制 器 访问 卷 ， 但 只 有 一 个 控制 器 拥有 该 卷 。 主 
路 径 是 经 过 优化 后 的 路 径 ， 它 是 最 直接 通 向 所 属 存 储 控制 器 的 路 径 。 然 而 ， 非 优化 路 径 也 与 该 卷 有 一 个 连接 ， 但 不 拥有 该 卷 ， 只 
是 内 部 互 连 总 线 到 存储 控制 器 之 间 的 间接 路 径 。 这 种 技术 还 可 以 防止 某 些 类 型 发 生 故 障 时 的 故障 切换 事件 。 但 是 这 种 方法 的 缺点 
是 ,通过 内 部 互 连 总 线 的 方式 会 在 控制 器 上 增加 额外 的 负载 并 增加 延迟 。 


与 双 活 模式 、 活 动 /备用 模式 阵列 和 ALUA 有 关 的 另外 一 个 考虑 因素 是 ， 这 些 功 能 往往 被 存储 供应 商 进一步 混淆 ， 这 些 厂商 
为 了 确保 其 产品 能 够 脱颖而出 ， 他 们 在 市 场 营 销 宣传 资料 中 将 活动 /备用 模式 ALUA 功 能 阵列 宣传 为 双 活 模式 ， 因 为 没有 所 有 权 


的 控制 器 能 够 接受 非 拥 有 卷 的 VO， 这 当然 不 会 使 它们 成 为 双 活 模式 的 阵列 。 因 此 ， 在 评估 和 比较 不 同 三 商 的 存储 产品 时 ， 这 些 
宣传 资料 往往 会 引起 混淆 。 
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图 3-47 支持 ALUA 的 阵列 路 径 


3.5.1 可 播 拔 存 储 架 构 


在 vSphere 4 中 ，VMware 引 入 了 全 新 架构 的 存储 层 ， 并 引入 了 可 插 拔 存储 架构 (PSA) ， 该 架构 为 第 三 方 提供 了 将 自 定 义 
的 多 路 径 软 件 插入 vSphere 存 储 堆 栈 的 能 力 ， 以 实现 负载 均衡 的 优化 、 故 障 切 换 ， 以 及 供应 商 特定 存储 设备 的 性 能 提升 等 。 这 开 
辟 了 一 个 更 灵活 的 模块 化 框架 ， 并 为 存储 供应 商 提供 了 将 其 多 路 径 软件 解决 方案 与 VSphere 主 机 平台 集成 的 机 会 。 例 如 ，EMC 
和 Dell 都 是 利用 此 功能 生产 自己 的 多 路 径 插件 (MPP) 的 存储 供应 商 。 


配置 不 带 任何 第 三 方 插件 的 主机 使 用 本 机 多 路 径 插件 (NMP) ， 其 中 vSphere 主 机 自己 的 软件 指定 多 路 径 功 能 。NMP 分 为 


两 个 模块 : 用 于 路 径 故 障 切 换 的 存储 阵列 类 型 插件 (SATP) 和 用 于 路 径 负载 均衡 和 路 径 选择 的 路 径 选 择 插件 (PSP) 。 如 图 3- 
48 所 示 ， 通 过 VMkernel 组 件 ， 可 以 看 到 vsphere 主 机 的 存储 堆栈 如 何 提供 默认 的 NMP 模 块 ， 而 无 需 安装 其 他 软件 或 运 维 团 队 进 
行 任何 干预 。 


主机 使 用 SATP 来 识别 存储 设备 ， 确 定 卷 的 故障 切换 类 型 ， 并 处 理 给 定 存储 阵列 的 路 径 故 障 切换 。SATP 与 NMP 一 起 运行 ， 
并 负责 阵列 特定 的 存储 操作 。vSphere 主 机 为 VMware 支持 的 每 种 类 型 阵列 提供 SATP， 包 括 用 于 非 指定 存储 阵列 的 通用 SATP 和 
用 于 直接 连接 存储 的 本 地 SATP。 每 个 SATP 提 供 特 定 类 别 的 存储 的 特性 ， 并 且 可 以 执行 路 径 状态 检测 和 激活 非 活动 路 径 所 需 的 特 
定 阵列 操作 。 通 过 在 主机 的 /etc/vmware/esx.conf 文 件 中 定义 的 一 组 声明 规则 来 确定 阵列 的 细节 ， 其 中 列 出 了 所 有 经 过 认证 的 
硬件 。 由 此 ，PSA 负 责 声明 特定 设备 的 路 径 ， 确 定 哪个 多 路 径 模 块 应 该 被 加 载 ， 并 且 负 责 管理 该 设备 。 根 据 可 用 的 信息 ， 主 机 为 
每 个 所 呈现 的 卷 设置 路 径 策略 ， 并 且 决 定 阵列 被 分 类 为 双 活 模式 还 是 活动 /备用 模式 。 
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图 3-48 vSphere 可 插 拔 存储 架构 


由 于 其 灵活 性 ，NMP 模 块 可 以 与 多 个 存储 阵列 一 起 工作 ， 而 无 需 了 解 存储 设备 的 特定 信息 。 在 NMP 确 定 要 为 特定 卷 调用 哪 
个 SATP 之 后 ， 它 会 将 SATP 与 存储 阵列 的 物理 路 径 相 关联 。 然 后 ，SATP 继 续 监测 每 个 物理 路 径 的 运行 状况 ， 并 将 其 状态 的 变化 
报告 给 NMP。SATP 还 执行 特定 的 阵列 操作 以 允许 存储 故障 切换 。 例 如 ， 对 于 活动 /备用 模式 设备 ， 它 可 以 激活 备用 路 径 。 


PSP 还 与 NMP 模 块 一 起 运行 ， 并 负责 选择 |/O 请 求 的 物理 路 径 。NMP 根 据 与 该 存储 目标 的 物理 路 径 相 关联 的 SATP 为 每 个 逻 
辑 设备 ( 卷 ) 分 配 默 认 的 PSP。PSP 控 制 以 下 3 种 路 径 策 略 : 


“ 固定 。 这 是 双 活 模式 存储 设备 的 默认 策略 。 当 选择 固定 路 径 策 略 时 ， 如 果 该 路 径 可 用 ，vSphete 主 机 始终 使 用 首选 路 径 访 


问 磁 盘 。 如 果 无 法 通过 首选 路 径 访 问 磁 盘 ， 则 尝试 替代 路 径 。 


- 最 近 使 用 (MRU) 。MRU 是 活动 /备用 模式 存储 的 默认 策略 ， 通 常 也 是 这 些 存 储 设备 必需 的 策略 。 当 选择 最 近 使 用 的 路 径 
策略 时 ，vSphere 主 机 使 用 最 近 已 知 的 路 径 访问 磁盘 ， 直 到 该 路 径 不 可 用 。 启 用 此 策略 后 ， 在 失败 的 路 径 再 次 可 用 时 ， 主 机 不 会 
自动 还 原 到 首选 路 径 。 

: 轮 询 (RR) 。RR 策 略 通 过 所 有 可 用 的 优化 路 径 轮 询 ， 提 供 基 本 的 负载 均衡 机 制 。 当 选择 轮 询 路 径 策略 时 ，vSphere 主 机 将 
使 用 自动 路 径 选 择 ， 在 所 有 可 用 的 路 径 上 循环 。 除 了 路 径 故 障 切换 之 外 ，RR 还 支持 所 有 可 用 路 径 的 基本 负载 均衡 。 


虽然 最 合适 的 策略 由 SATP 确 定 并 自动 选择 ， 但 仍然 可 以 手动 设置 策略 。 为 设计 确定 最 合适 的 多 路 径 配 置 时 ， 通 常 也 要 基于 
存储 供应 商 的 建议 。 


注意 默认 情况 下 ，vSphere 主 机 每 个 1/O 只 能 使 用 一 个 路 径 ， 而 不 需 考虑 可 用 路 径 的 数量 。 在 使 用 双 活 模式 阵列 的 环境 
中 ， 路 径 是 逐 卷 选 择 的 。 相 反 ， 在 活动 /备用 模式 阵列 中 ， 主 机 采用 最 近 使 用 的 路 径 选择 策略 来 确定 主动 路 径 。 


但 是 ， 如 果 设 计 上 需要 主机 使 用 特定 存储 阵列 的 特性 ， 那 么 根据 硬件 厂商 的 不 同 ， 可 以 使 用 第 三 方 的 SATP。SATP 由 存储 供 
应 商 或 合作 软件 公司 提供 ， 专 门 用 于 优化 该 供应 商 存 储 阵 列 。SATP 可 以 使 用 更 复杂 的 MO 负载 均衡 算法 ， 安 装 在 第 三 方 PSP 上 。 
安装 后 ， 第 三 方 子 插件 由 NMP 调 度 ， 并 且 与 vSphere 本 机 子 插件 一 起 运行 使 用 ， 如 图 3-49 所 示 。 


可 揪 拔 存储 体系 架构 ( PSA ) 


VMware NMP 


VMware SATP 

VMware SATP 

VMware SATP 
第 三 方 SATP 第 三 方 PSP 





图 3-49 ”本 地 和 第 三 方 多 路 径 插 件 
通过 在 指定 存储 阵列 的 设计 中 包含 第 三 方 MPP， 可 以 完全 替换 vSphere 主 机 NMP 的 功能 ， 并 将 路 径 故 障 切 换 和 负载 均 稀 操 
作 的 控制 完全 交 给 第 三 方 软件 。 这 也 意味 着 第 三 方 存储 供应 商 可 以 将 新 阵列 添加 到 ESXi 存 储 堆 栈 中 ， 而 无 需 向 VMware 提供 阵列 
的 内 部 信息 。 
第 三 方 多 路 径 插件 可 分 为 3 类 : 


: 第 三 方 SATP 通 常 由 存储 硬件 制造 商 开 发 ， 这 些 存 储 硬 件 制造 商 对 其 存储 设备 有 着 深入 的 了 解 ， 通 过 优化 的 插件 ， 可 以 最 
大 程度 地 发 挥 存储 阵列 的 特性 。 当 存储 供应 商 的 阵列 行为 与 PSA 提 供 的 现 有 SATP 的 行为 不 匹配 时 ， 需 要 提供 特定 的 SATP。 安 装 
完成 后 ， 第 三 方 SATP 由 NMP 来 协调 ， 并 可 与 YMware SATP 同 时 运行 。 


dy 


- 第 三 方 PSP 可 以 提供 更 复杂 的 I/O 负 载 均衡 算法 。 一 般 来 说 ， 这 些 插件 由 第 三 方 软件 公司 开发 ， 可 以 在 多 个 路 径 上 实现 更 


高 的 吞吐 量 。 安 装 后 ， 第 三 方 PSP 由 NMP 进 行 协调 ， 并 可 以 与 YMware PSP 同 时 使 用 。 


. 第 三 方 MPP 还 可 以 定义 全 新 的 容错 和 性 能 优化 的 行为 。 第 三 方 MPP 与 VMwate 的 NMP 并 行 运行 ， 对 于 某 些 特定 的 阵列 ， 可 
以 通过 路 径 故 障 切 换 和 负载 均衡 操作 来 替换 NMP 的 行为 。 


这 3 类 总 结 在 表 3-12 中 。 


表 3-12 可 插 拔 存储 架构 (PSA) 第 三 方 插件 类 








插 件 范 围 详细 信息 
> | e VMware NMP 模块 的 轻 量 级 的 插件 
SATP (存储 阵列 类 型 插件 ) 鸭 障 切换 - nn 
仓储 隐 | 疏 障 臣 e 在 VMware SAN HCL 上 实现 故障 切换 检查 标记 的 关键 
Tn pe e VMware NMP 模块 的 轻 量 级 的 插件 
PSP (路 径 选择 插件 ) 负载 均衡 ee 


e 对 每 个 IO， 选 择 要 使 用 的 物理 路 径 





e 更 高 的 效率 

e VMware NMP 的 替代 方案 

MPP (多 路 径 插件 ) 故障 切换 和 负载 均衡 ”| 。 请 求 使 用 IO 并 将 其 发 送 到 存储 的 驱动 程序 上 (做 出 所 
有 策略 决策 ) 

e 处 理 给 定 LUN 的 所 有 IO 








3.5.2 iSCSI 多 路 径 


在 iSCSI 存储 环境 中 ， 多 路 径 支 持 软 硬 件 两 种 启动 器 类 型 。 在 iSCSI 多 路 径 中 ， 如 果 一 个 端口 发 生 故障 或 过 载 ， 流 量 将 移动 到 
另 一 个 端口 。iSCSI 的 目标 可 以 通过 通知 启动 器 注销 来 强制 执行 此 操作 ， 然 后 将 新 的 登录 指向 其 他 端口 。 但 是 ， 某 些 iSCSI 存 储 系 
统 只 能 使 用 一 个 目标 ， 在 故障 切换 期 间 切换 到 著 代 的 目标 。 


在 硬件 启动 器 的 设计 中 ， 多 路 径 采 用 与 光纤 通道 环境 相同 的 工作 机 制 。 主 机 将 iSCSI HBA 标 识 为 存储 适配器 ， 并 使 用 NMP 
与 SATP 来 标识 存储 设备 ， 确 定 故障 切换 类 型 、 并 处 理 人 存储 阵列 和 基于 路 径 选择 策略 的 路 径 故 障 切 换 。 通 过 动态 发 现 ，iSC3I 
HBA 获 取 目 标 地 址 列表 ， 启 动 器 可 以 使 用 到 达 iSCSI 目 标 LUN 的 这 些 多 路 径 来 实现 故障 切换 。 


软件 SCSI 启 动 器 需要 通过 硬件 HBA 进 行 额外 的 配置 ， 才 能 使 用 vSphere 的 存储 多 路 径 |/O 功 能 。 上 默认 情况 下 ， 采 用 软件 启动 
的 iSCSI 适配器 ， 网 络 适 配器 将 被 组 合 来 实现 故障 切换 ， 但 是 由 于 局 动 器 只 提供 单个 端点 ， 因 此 此 机 制 无 法 实现 负载 均衡 。 如 本 
章 前 面 所 述 ， 这 不 是 一 个 遵循 最 佳 实践 的 设计 ， 并 且 ， 软 件 启动 器 提供 的 故障 切换 功能 也 不 会 带 来 很 好 的 性 能 。 


要 利用 vsSphere 存 储 NMP 并 在 软件 启动 器 之 间 启 用 负载 均衡 功能 ， 你 必须 使 用 本 章 前 面 所 述 的 端口 绑 定 技术 ， 如 图 3-50 所 


个 \。 


3.5.3 NAS 多 路 径 


NAS 存 储 的 多 路 径 从 根本 上 不 同 于 光纤 通道 或 i1SCSI 存 储 ， 因 为 vSphere 多 路 径 |/O 组 件 (如 SATP 和 PSP) 不 能 用 于 NAS 的 
设计 。 由 于 NFs 版 本 3 不 提供 原生 的 多 路 径 支 持 ， 为 了 满足 高 可 用 性 设计 ， 架 构 师 的 唯一 选择 是 完全 依赖 于 物理 网 络 堆栈 ， 使 用 
基于 IP 的 元 余 和 路 由 实现 高 可 用 。 


ESXi 主 机 1 ESXi 主 机 2 
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图 3-50 iSCSI 存储 多 路 径 故 障 切换 和 负载 均衡 


如 之 前 所 强调 的 ，vSphere 6 发 布 时 支持 NFS 版 本 4.1。NFS 版 本 4.1 通 过 会 话 中 继 提供 服务 器 的 多 路 径 功 能 支持 。 通 过 会 话 
中 继 技 术 ，vSphere 主 机 可 以 使 用 多 个 IP 地址 访问 单个 NFS 卷 ， 从 而 通过 负载 均衡 和 故障 切换 功能 来 优化 系统 的 性 能 和 提高 系统 
的 可 用 性 。 


传统 上 ，NFSs 版 本 3 对 于 每 个 挂 载 的 NFS 导 出 ， 不 管 采用 任何 链 路 聚合 技术 将 多 个 接口 绑 定 在 一 起 ， 只 能 使 用 单个 物理 接 
口 。 为 满足 元 余 性 的 需求 ， 昌 然 网 络 适 配器 的 组 合 可 以 提供 故障 切换 ， 但 它 不 能 为 导出 提供 负载 均衡 。 然 而 ， 如 本 章 前 面 所 述 ， 
普 助 在 不 同 网 段 上 创建 多 个 导出 以 及 多 个 连接 的 解决 方案 ， 可 以 实现 在 多 个 接口 之 间 静 态 地 分 配 NFS 数 据 存 储 流 量 负载 。 


如 你 所 见 ， 基 于 NFS 版 本 3， 设 计 并 提供 NFS 负 载 均衡 是 非常 困难 的 。 实 际 上 ，NFS 存 储 设计 通常 仅 限于 提供 故障 切换 功 
能 。 过 去 ， 这 是 NFS 存 储 的 关键 设计 因素 之 一 。 然 而 ，vSphere 6 增加 了 对 会 话 中 继 的 支持 之 后 ， 可 以 使 用 多 个 IP 地 址 来 访问 相 
同 的 NFs 导 出 ， 从 根本 上 解决 了 存储 性 能 和 可 用 性 方面 的 问题 。 


如 图 3-51 所 示 ，vSphere 5.5 及 更 早 的 版 本 (NFS 版 本 3) 仪 提 供 活动 /备用 模式 配置 ， 结构 设计 如 何 ， 每 个 目标 最 多 支 
持 一 个 会 话 。NFS 版 本 3 设计 中 ， 所 有 的 其 他 连接 (例如 网 络 接口 和 交换 机 ) 只 是 为 了 减轻 硬件 故障 。 但 是 ， 基 于 NFS 版 本 4.1 的 
vSphere 6 的 设计 ， 增 加 了 将 另 一 个 会 话 添加 到 同一 个 目标 的 能 力 。 如 图 3-52 所 示 ， 部 署 这 种 类 型 的 体系 架构 ， 可 以 提供 更 多 的 
带宽 和 减少 延迟 的 时 间 ， 同 时 ， 如 果 出 现 硬件 故障 ， 仍 然 可 以 提供 故障 切换 的 能 力 。 
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图 3-51 NFS 版 本 3 配置 示例 
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一 > 活动 路 径 
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图 3-52 NFS 版 本 4.1 配 置 示例 





3.6 ”直接 连接 存储 


直接 连接 存储 (DAS) 是 存储 供应 商 提 供 的 最 基本 级 别 的 存储 。 磁 盘 设 备 作为 主机 服务 器 硬件 的 一 部 分 在 内 部 集成 ， 或 者 直 
接连 接 到 外 部 存储 设备 。 使 用 此 架构 ， 访 问 存储 设备 的 主机 必须 首先 访问 直接 连接 的 服务 器 ， 来 获得 MO 访问 。 


历史 上 ， 基 于 DAS 的 产品 被 广泛 采用 ， 并 且 在 许多 数据 中 心 占据 了 大 部 分 的 安装 存储 系统 。DAS 对 于 一 些 非常 小 的 环境 来 说 
仍然 是 一 个 可 行 的 选择 ， 因 为 部 署 简单 上 且 便 宜 ， 而 且 在 大 多 数 情况 下 只 需要 基本 配置 就 可 以 满足 客户 需求 。 但 是 ， 数 据 高 可 用 是 
DAS 环 境 中 面临 的 一 个 问题 ， 因 为 任何 未 直接 连接 存储 的 主机 想 要 实现 数据 访问 ， 都 取决 于 直接 连接 到 该 设备 的 主机 的 可 用 性 。 


这 个 限制 从 根本 上 消除 了 DAS 向 采用 传统 架构 的 vSphere 集 群 提供 共享 存储 的 可 能 性 。 

DAS 模 型 非常 适合 在 具有 单个 或 少数 服务 器 的 环境 中 做 本 地 化 的 文件 共享 ， 如 图 3-53 所 示 。 从 经 济 角 度 看 ，DAS 的 初期 投 
资 要 小 于 NAS 或 SAN。 然 而 ， 其 有 限 的 可 扩展 性 使 大 多 数 企业 或 服务 提供 商 T 组 织 ， 对 于 可 预期 的 快速 数据 增长 或 将 vSphere 主 
机 集群 部 署 到 共享 存储 的 需求 很 难得 到 满足 。 从 成 本 效益 和 管理 的 角度 来 看 ，NAS 或 SAN 模 式 更 适合 高 速 可 扩展 的 存储 业务 需 
求 。 

尽管 有 这 些 限制 ，DAS 也 可 以 是 特定 情况 下 一 些 用 例 的 选择 。 例 如 ， 如 图 3-53 所 示 ， 如 果 要 在 远程 办 公 室 / 分 支 机 构 

(ROBO) 站 点 部 署 单个 vSphere 主 机 ， 引 入 额外 的 共享 存储 设备 可 能 会 引入 另 一 个 故障 单 点 (共享 存储 单 点 ) 并 且 成 本 投入 过 

高 。 在 这 种 情况 下 ， 共 享 存储 提供 的 存储 性 能 也 不 会 很 高 ， 并 且 存 储 也 没有 额外 的 匈 余 。 






直接 SAS 连 接 ( 块 1/0 ) ----- | 
以 太 网 DAS 存 储 访 问 


图 3-53 ROBO 站 点 的 直接 连接 存储 模型 


另 一 个 用 例 是 为 少量 或 无 本 地 磁盘 的 刀片 服务 器 提供 基于 特定 硬件 的 高 密度 DAS 外 部 存储 ， 以 便 在 Virtual SAN 环 境 中 设计 
刀片 式 直接 连接 的 JBOD 解 决 方案 。 这 种 方法 使 Virtual SAN 能 够 通过 高 密度 DAS 添 加 更 多 存储 ， 进 而 扩展 刀片 服务 器 。 为 
Virtual SAN 提 供 此 类 功能 的 硬件 如 联想 的 Flex SEN x240 Blade 系 列 计算 节点 ， 以 及 戴尔 的 FX2 配 置 12G 控 制 器 。 


刀片 服务 费 








图 3-54 ”联想 的 Flex SEN x240 刀 片 系 列 


图 3-54 说 明了 联想 的 Flex SEN 解 决 方案 ， 采 用 x240 系 列 刀 片 ， 通 过 直接 连接 的 JBOD， 为 Virtual SAN 磁 盘 组 提供 高 密度 
DAS。 该 架构 允许 刀片 服务 器 在 设计 上 更 方便 的 扩展 Virtual SAN 集 群 ， 以 满足 更 大 的 容量 需求 。VMware 的 Virtual SAN 解 决 方 
案 将 在 下 一 章 中 进行 详细 介绍 。 


3.7 ”评估 交换 机 设计 特 | 

在 评估 SAN 和 LAN 交 换 机 选 型 时 ， 必 须 考虑 它们 功能 上 的 区 别 和 其 他 的 相关 注意 事项 ， 然 后 才能 选 出 符合 客户 设计 需求 的 
供应 商 和 适当 的 交换 机 型 号 。 企 业 级 交换 机 通常 有 3 种 形式 : 

- 模块 化 交换 机 

: 国定 交换 机 

` 混合 交换 机 


模块 化 交换 机 更 大 ， 并 且 设 计 上 更 灵活 ， 它 们 人 允许 安装 不 同类 型 的 线路 卡 来 执行 不 同 的 任务 ， 或 者 添加 端口 。 固 定 交 换 机 具 
有 固定 数量 的 端口 ， 不 能 增加 ， 因 此 不 能 支持 与 模块 化 交换 机 一 样 多 的 功能 。 混 合 交 换 机 具有 固定 的 端口 ， 也 支持 类 似 于 线路 卡 
的 可 安装 模块 ， 但 比 模块 化 交换 机 小 。 混 合 交 换 机 提供 了 比 固定 交换 机 更 多 的 灵活 性 ， 同 时 硬件 成 本 比 模块 化 交换 机 低 。 


评估 和 比较 各 种 供应 商 的 硬件 非常 具有 挑战 性 ， 特 别 是 当 摘 述 其 功能 的 技术 术语 不 一 致 时 。 然 而 ， 一 些 关 键 的 设计 因素 可 以 
忽略 交换 机 类 型 和 供应 商 的 不 同 而 进行 全 面 的 评估 。 这 些 设计 因素 包括 但 不 限于 : 


1) 端口 密度 。 端 口 密度 应 该 是 评估 交换 机 时 的 首要 考虑 因素 之 一 。 较 小 数量 的 较 大 交换 机 可 能 会 降低 运 维 开销 ， 但 也 会 增 
加 故障 域 ， 因 此 可 能 需要 将 超额 预定 纳入 设计 。 聚 合 交换 机 的 端口 密度 更 复杂 ， 因 为 它们 有 专门 用 于 光纤 通道 上 行 链 路 的 不 同 端 
口 类 型 。 其 他 交换 机 端口 类 型 支持 所 有 3 种 协议 ， 为 每 个 设备 可 以 连接 的 数量 提供 了 更 多 的 灵活 性 。 


2) 吞吐 量 。 吞 吐 量 是 交换 机 在 任 一 时 刻 转发 的 数据 量 。 通 常 以 干 兆 比特 或 兆 兆 比特 每 秒 计算 。 如 果 前 端 端口 的 总 带宽 大 大 
超过 交换 机 总 吞吐 量 ， 交 换 机 可 能 会 成 为 瓶 天 ， 因 为 它 将 无 法 管理 所 有 入 站 和 出 站 流量 。 


3) 超额 预定 。 超 额 预定 是 入 口 流量 与 出 口 流量 的 比值 。 根 据 交 换 机 体系 架构 的 不 同 ， 可 能 需要 将 帧 转发 到 背 板 或 仲裁 机 
构 。 由 于 空间 的 限制 或 成 本 的 原因 ， 某 些 交 换 机 具有 比 后 端 带宽 更 多 的 前 端 带 宽 ， 从 而 导致 超额 预定 。 超 额 预定 并 不 一 定 是 坏 
事 。 在 正常 操作 期 间 ， 主 机 通常 不 会 持续 维持 交换 机 端口 的 全 速率 ， 而 直接 连接 到 存储 设备 的 |SL 和 端口 可 能 会 维持 全 速率 。 
此 ， 如 果 多 个 主机 同时 突 发 网 络 活动 ， 由 于 主机 竞争 可 用 的 后 端 带宽 ， 环 境 可 能 会 出 现 性 能 下 降 。 


4) 交换 机 间 链 路 。 交 换 机 间 链 路 (1SL) 是 分 布 式 网 络 设计 成 功 的 关键 。 要 将 网 络 扩展 到 单个 交换 机 之 外 ， 设 计 需 要 使 用 交 
换 机 层 之 间 的 链 路 。1SL 通 常 为 多 个 VLAN 或 虚拟 结构 传输 流量 ， 从 多 个 绑 定 的 物理 链 路 构建 ， 创 建 出 一 个 虚拟 链 路 。 作 为 存储 
架构 设计 的 一 部 分 ， 理 解 1SL 支 持 的 协议 是 很 重要 的 ， 如 链 路 聚合 控制 协议 (LACP) 、 端 口 聚合 协议 (PAGP) 、 以 太 通 道 和 端 
口 通道 。 因 为 并 非 所 有 交换 机 、 供 应 商 或 甚至 来 自 同 一 供应 商 的 交换 机 都 支持 相同 的 设计 和 配置 。 了 解 可 以 把 多 少 个 端口 聚合 到 
单个 通道 中 也 很 重要 ， 这 样 ， 就 可 以 设计 交换 机 间 连 接 ， 将 链 路 所 需 的 交换 机 端口 的 数量 聚合 到 单个 虚拟 绑 定 连接 中 ， 从 而 实现 
ISL 的 总 容量 设计 。 另 外 ， 在 光纤 通道 结构 中 可 以 有 多 个 1SL， 但 在 标准 的 以 太 网 环境 中 不 可 以 ， 因 为 它 将 在 拓扑 中 创建 循环 。 在 
聚合 环境 中 ，1SL 的 可 扩展 性 在 边缘 以 太 网 光纤 通道 拓扑 中 尤为 重要 。 这 是 由 离散 光纤 通道 端口 (连接 到 本 地 光纤 通道 SAN) 以 
及 汇聚 交换 机 上 的 汇聚 端口 与 光纤 通道 端口 之 间 的 比例 而 产生 的 ， 这 也 是 构成 超额 预定 的 来 源 。 


5) 交换 机 聚合 。 交 换 机 聚合 允许 将 两 个 或 多 个 交换 机 合并 到 单个 物理 或 逻辑 实体 中 ， 并 且 可 以 被 以 太 网 和 汇聚 交换 机 使 
用 。 光 纤 通 道 交 换 机 不 需要 使 用 此 技术 ， 因 为 光纤 通道 协议 支持 交换 机 之 间 的 多 个 路 径 。 


最 后 ， 应 该 确定 交换 机 是 否 支 持 任何 附加 的 功能 或 者 高 级 的 功能 。 例 如 ， 如 果 使 用 光纤 通道 交换 机 ， 应 该 确定 是 否 支 持 如 下 
高 级 功能 : 基于 IP 的 光纤 通道 (FCIP) ，VSAN 间 路 由 (IVR) ， 加 密 或 其 他 技术 。 在 以 太 网 环境 中 ， 高 级 功能 包括 第 3 层 路 
由 、 第 4 层 包 过 滤 或 其 他 类 似 的 增强 技术 。 


3.8 ”结构 连接 和 存储/O 体 系 架构 概要 


现在 已 经 介绍 了 vSphere 环 境 中 可 用 的 每 个 存储 协议 ， 如 何 将 最 合适 的 存储 协议 匹配 到 特定 的 设计 或 用 例 ， 来 设计 vSphere 
环境 中 最 佳 的 共享 存储 类 型 呢 ? 


正如 之 前 所 述 ， 没 有 一 个 标准 的 答案 适用 于 每 个 具体 的 设计 用 例 。 每 种 类 型 的 共享 存储 协议 各 自 具有 优点 和 缺点 ， 同 时 ， 一 
些 环境 需要 多 种 存储 协议 类 型 的 组 合 ， 才 能 满足 客户 复杂 的 需求 。 事 实 上 ， 在 一 个 基础 架构 内 支持 使 用 各 种 存储 协议 的 能 力 是 
vSphere 产 品 的 竞争 优势 之 一 。 


图 3-55 说 明了 与 本 章 中 讨论 的 每 个 协议 相关 的 最 常见 的 设计 因素 。 


光纤 通道 以 太 网 光纤 通道 
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图 3-55 “存储 协议 设计 因素 
除了 这 些 协议 的 优 缺 点 ， 以 下 客户 特定 的 需求 也 会 影响 选择 适当 的 协议 : 


1) 熟悉 和 可 管理 性 。 大 多 数 |T 组 织 通 常 倾 向 于 坚持 或 使 用 他 们 理解 和 熟悉 的 技术 。 因 为 这 样 可 能 会 降低 投入 和 运 维 的 成 
本 ， 并 避免 对 现 有 的 基础 架构 进行 完全 的 替换 。 此 外 ， 扩 展 运 维 团 队 现 有 的 技术 技能 (如果 已 经 具有 良好 的 专业 知识 水 平 ) 要 比 
采用 全 新 的 方法 更 容易 。 如 果 IT 组 织 使 用 不 熟悉 的 协议 构建 基础 架构 ， 同 时 对 新 协议 的 知识 和 经 验 储备 不 到 位 ， 会 是 项 目 上 的 一 
个 大 风险 。 


2) 性 能 。 与 以 往 一 样 ， 基 础 架构 性 能 是 一 个 关键 的 设计 因素 。 对 于 几乎 所 有 的 用 例 ， 光 纤 通 道 、FCoE 或 10Gbps iSCSI 足 
以 满足 客户 需求 。 对 于 大 多 数 环境 ， 如 果 适 当地 设计 ， 存 储 传输 协议 不 是 瓶颈 。 存 储 阵列 系统 ， 其 前 端 缓存 和 后 端 磁盘 系统 比 传 
输 协 议 本 身 更 有 可 能 成 为 钵 人 颈 。 然 而 ， 如 果 是 低 延 迟 的 虚拟 化 关键 业务 应 用 的 性 能 (如 实时 或 关系 型 数据 库 ) 设计 需求 ， 则 光纤 
通道 或 以 太 网 光纤 通道 协议 可 能 是 设计 上 的 首选 。 


3) 成 本 。 成 本 也 是 存储 协议 架构 设计 决策 的 关键 。NAS 系 统 通 常 被 认为 是 较 低 成 本 的 设计 选择 ， 但 是 许多 存储 阵列 提供 了 
比较 灵活 的 I/O 连 接 选 择 ， 人 允许 使 用 多 种 协议 。 光 纤 通 道 传统 上 被 认为 是 数据 中 心 成 本 最 高 的 选择 。 然 而 ， 专 用 的 10Gbps 的 
iSCSI 设 计 或 FCoE 融 合 基 础 架构 的 实现 也 可 能 需要 类 似 的 成 本 支出 进行 部 署 。 


与 设计 相关 的 考量 因素 还 包括 某 些 vSphere 的 功能 不 兼容 某 些 类 型 的 共享 存储 或 存储 协议 。 另 外 ， 在 了 解 每 个 协议 的 网 络 需 
求 时 ， 了 解 这 些 需 求 如 何 影响 客户 现 有 和 未 来 的 网 络 设 计 至 关 重 要 。 从 这 个 角度 来 看 ， 在 整个 数据 中 心 架构 设计 中 ， 存 储 资 源 不 
能 被 排除 在 其 他 功能 (例如 网 络 和 计算 ) 之 外 。 


最 后 ， 如 前 所 述 ，vSphere 不 要 求 在 整个 环境 中 使 用 相同 的 存储 协议 类 型 。 例 如 ， 较 低 成 本 的 iSCSI 或 NAS 可 能 是 存储 模板 
或 存档 虚拟 机 的 最 佳 设计 选择 ， 而 光纤 通道 可 以 用 于 低 延 迟 的 关键 业务 型 应 用 。 通 过 在 设计 过 程 中 查看 虚拟 机 负载 和 应 用 ， 可 以 
在 大 型 和 复杂 的 多 协议 环境 中 以 更 细 粒 度 的 方式 设计 适当 的 存储 解决 方案 。 此 外 ， 业 务 需求 随 着 时 间 的 推移 而 发 生变 化 时 ， 多 协 
议 的 方式 也 提供 了 更 大 的 灵活 性 来 满足 不 断 变化 的 业务 需求 。 


第 4 章 ”使 用 Virtual SAN 实 现 策略 驱动 的 存储 设计 


最 近 几 年 来 ， 企 业 存 储 系统 的 发 展 停滞 不 前 ， 缺 乏 创 新 ， 已 经 成 为 数据 中 心中 最 保守 的 组 件 。 很 多 存储 厂商 一 直 在 沿用 旧 有 
技术 ， 他 们 给 这 些 | 上 日 有 技术 取 个 新 名 字 ， 以 保持 其 在 IT 业界 的 关注 度 和 市 场 份额 。 


这 种 路 线 显然 与 软件 定义 数据 中 心 (SDDC) 模式 不 相 匹配 ， 无 法 满足 那些 想 要 真正 成 为 软件 定义 企业 (SDE) 的 公司 的 需 
求 。 软 件 定义 企业 必须 采用 更 敏捷 的 方式 以 快速 响应 需求 变化 。 在 软件 定义 企业 中 ， 存 储 资源 必须 以 服务 的 形式 来 置 备 和 消费 ， 
且 必 须 能 够 感知 其 所 承载 应 用 与 服务 的 局 限 性 。 此 外 ， 软 件 定义 企业 中 存储 服务 的 交付 方式 必须 是 自动 化 的 、 策 略 驱动 的 、 高 度 
集成 的 ， 且 能 满足 应 用 自 上 而 下 的 需求 。 因 此 ， 软 件 定义 企业 为 了 自身 发 展 ， 必 须 采 用 灵活 高 效 、 以 虚拟 机 为 中 心 的 存储 系统 。 
为 了 满足 这 类 需求 ，VMware 提 供 了 Virtual SAN 和 Virtual Volumes 两 种 解决 方案 ， 如 图 4-1 所 示 。 


软件 定义 存储 (SDS) 是 软件 定义 企业 的 要 件 ， 它 的 愿景 是 通过 策略 驱动 的 自动 化 来 简化 操作 ， 从 而 可 以 以 更 敏捷 的 方式 来 
消费 存储 资源 。 软 件 定义 存储 路 线 不 仅 可 以 在 整个 企业 范围 内 简化 存储 服务 的 交付 ， 还 可 以 更 精细 地 控制 硬件 资源 ， 为 单个 应 用 
提供 不 同 的 服务 级 别 ， 并 且 可 以 根据 应 用 的 需要 随时 进行 动态 调整 。 总 而 言 之 ， 软 件 定义 存储 使 用 虚拟 化 和 自动 化 技术 来 消除 那 
些 与 存储 置 备 相关 的 复杂 操作 ， 虽 在 把 磁盘 需求 的 控制 权 交 还 给 应 用 。 


1. 传 统 存储 的 挑战 


我 们 在 第 2 章 中 谈 到 过 ， 人 存储 管理 员 通 常 要 使 用 大 量 的 LUN 来 置 备 和 管理 存储 资源 ， 置 备 好 的 LUN 呈 现 给 vSphere 环 境 ， 这 
些 数据 存储 (datastore) 只 能 通过 基于 策略 的 存储 管理 加 上 一 个 级 别 的 服务 标签 。 因 此 ， 任 何 部 署 或 迁移 到 该 数据 存储 的 虚拟 
磁盘 只 能 接收 到 那些 由 存储 管理 员 预 先 分 配 好 的 同一 后 端 数据 服务 ， 不 管 应 用 的 负载 需求 是 什么 。 
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图 4-1 软件 定义 的 企业 存储 


软件 定义 存储 模型 的 重要 准则 之 一 是 应 用 所 有 者 和 vSphere 的 管理 员 可 以 通过 工具 动态 选择 所 需 的 存储 级 别 。 为 了 达成 这 一 
目标 ，VMware 引 入 了 一 个 可 以 访问 单一 策略 目录 的 控制 平面 。 可 以 将 当前 环境 所 提供 的 各 种 服务 级 别 发 布 到 目录 中 ，VMware 
将 这 一 功能 特性 称 为 基于 策略 的 存储 管理 (storage policy-based management，SPBM) 。SPBM 的 目标 是 允许 vSphere 人 存储 
管理 员 创 建 多 个 存储 策略 ， 每 一 个 都 可 以 提供 不 同 的 服务 级 别 和 指定 的 容量 。SPBM 可 以 与 由 Virtual SAN 和 Virtual Volumes 所 
提供 的 面向 虚拟 机 的 存储 管理 平台 合作 ， 使 管理 员 团 队 能 够 为 每 一 台 虚 拟 机 甚至 每 一 块 虚拟 磁盘 提供 差异 化 的 存储 服务 。 


这 些 新 存储 平台 绅 在 将 vSphere 人 存储 管理 员 从 那些 使 用 传统 存储 时 必须 执行 的 繁琐 的 日 常 管理 任务 中 解放 出 来 ， 正 如 我 们 在 


第 2 章 中 摘 述 的 那样 。 继 续 介 绍 软件 定义 存储 之 前 ， 让 我 们 先 来 看 看 企业 IT 部 门 和 服务 提供 商 所 面 对 的 与 存储 相关 的 挑战 。 这 些 
都 是 使 用 传统 存储 的 痛 点 ， 也 是 我 们 转向 新 技术 的 动力 。 


传统 存储 模型 所 存在 的 主要 问题 有 : 

* 存储 设备 的 能 力 与 应 用 的 需求 很 难 匹配 ; 

需要 特定 的 存储 硬件 ， 这 些 设备 利用 率 不 高 ， 操 作 复 杂 ; 

. 不 可 靠 ， 有 时 性 能 无 法 预测 ; 

:以 存储 设备 为 核心 ， 形 成 了 不 同 厂商 的 存储 孤岛 ， 在 全 局 范围 内 控制 的 颗粒 度 不 够 ; 

- 缺少 单一 管理 面板 下 的 端 到 端 管理 可 见 性 ; 

* 工作 负载 的 置 备 需 手工 操作 

需要 复杂 的 流程 ， 自 动 化 水 平 较 低 ; 

需要 特定 的 硬件 、 运 维 团队 和 昂贵 的 厂商 支持 。 

下 一 个 问题 是 ， 软 件 定义 存储 如 何 帮助 企业 和 服务 提供 商 提 升 存储 基础 架构 的 管理 效率 ， 以 终结 上 述 难题 ? 


首先 ， 软 件 定义 存储 的 愿景 分 为 两 个 部 分 : 控制 平面 (control plane) ， 跨 所 有 存储 子 系统 实现 策略 驱动 的 自动 化 和 动态 
控制 ;数据 平面 (data plane) ， 通 过 虚拟 硬件 来 构建 一 个 分 布 式 的 、 弹 性 的 基础 架构 。 


为 了 实现 无 颖 的 自动 化 和 协作 ， 新 的 控制 平面 使 用 ?PBM 机 制 。 数 据 平面 将 物理 存储 资源 抽象 和 池 化 为 灵活 的 虚拟 数据 存 
储 ， 数 据 平面 也 负责 动态 调整 底层 存储 池 ， 以 确保 策略 的 合 规 性 和 服务 级 别 协议 (SLA) 得 以 满足 。 这 些 虚 拟 数据 存储 可 以 存在 
于 共享 SAN 或 NAS 人 存储 系统 之 上 ， 通 过 Virtual Volumes 的 形式 来 置 备 ， 也 可 以 由 基于 Virtual SAN 的 超 融 合 系统 来 提供 。 


软件 定义 存储 的 第 2 个 组 件 用 于 提供 虚拟 机 级 别 的 数据 服务 ， 例 如 复制 、 快 照 和 缓存 。 最 终 目标 是 使 用 通用 的 、 基 于 策略 的 
控制 面板 来 实现 以 应 用 为 核心 的 存储 服务 。 这 就 是 SPBM 的 目标 ， 每 个 虚拟 机 的 人 存储 需求 通过 简单 是 直 观 的 策略 来 定义 ， 策 略 作 
用 于 虚拟 机 的 整个 生命 周期 ， 适 用 于 任何 支持 SPBM 的 vSphere 架 构 。 


软件 定义 存储 的 另 一 个 关键 驱动 力 是 VMware 软件 层 与 存储 生态 系统 的 集成 与 互 操作 级 别 。 与 存储 的 集成 是 通过 APl 来 实现 
的 ， 以 便 在 vsphere 基 础 架构 的 核心 之 上 扩展 功能 ， 例 如 通过 云 管 平台 进行 统一 管理 ， 这 是 服务 提供 商 和 大 型 企业 的 IT 组 织 实现 
自动 化 和 扩展 性 的 关键 。 


基于 这 种 路 线 ， 软 件 定义 存储 可 以 提供 一 种 新 的 运 维 方式 ， 将 策略 驱动 的 自动 化 ， 外 部 硬件 虚拟 化 和 面向 虚拟 机 的 存储 池 抽 
象 等 几 项 功能 集成 在 一 起 。 这 一 模式 的 最 终 目 标 是 使 存储 的 部 署 与 置 备 过 程 变 得 更 加 流畅 ， 以 便 用 户 可 以 更 加 灵活 地 按 需 消费 存 
储 资 源 ， 为 不 同 应 用 提供 特定 的 SLA， 从 而 降低 服务 提供 商 和 企业 IT 组 织 存储 基础 架构 的 总 体 拥有 成 本 。 


2. 策 略 驱动 的 存储 概览 


正如 大 家 前 面 所 看 到 的 ，vSphere 基 础 架构 中 的 存储 正在 发 生变 化 ， 传 统 的 基于 LUN 的 存储 管理 机 制 将 存储 能 力 应 用 于 数据 
存储 级 别 ， 因 为 SCSI LUN 可 以 展现 给 一 台 或 多 台 主 机 。 底 层 人 存储 阵列 不 了 解 虚拟 化 层 (或 者 说 有 限 集成 ) ， 也 不 了 解 文件 系 
统 、 客 户 机 操作 系统 和 工作 负载 。 在 传统 存储 的 模式 下 ， 由 虚拟 化 层 或 vCenter Server， 或 其 他 的 管理 工具 负责 将 各 种 文件 (如 
VMDK) 映射 为 存储 系统 可 以 理解 的 段 、 页 和 逻辑 块 地 址 (LBA) 。 此 外 ， 使 用 NAS 存 储 解决 方案 时 ， 还 要 多 一 个 位 于 底层 块 存 
储 之 上 的 抽象 层 ， 用 于 实现 文件 管理 机 制 以 及 文件 到 LBA 的 映射 。 


新 的 基于 策略 的 存储 置 备 机 制 通过 Virtual SAN (通常 简称 为 VSAN) 或 Virtual Volumes (通常 简称 为 VVOL) 来 提供 ， 基 
于 策略 的 存储 管理 使 我 们 在 走向 软件 定义 数据 中 心 的 旅程 上 前 进 了 一 大 步 。 传 统 人 存储 系统 简单 地 通过 SCSI LUN 或 NFs 挂 接点 来 
展现 资源 ， 我 们 对 底层 存储 阵列 的 可 视 能 力 非常 有 限 (VASA 1) ， 甚 至 不 具备 可 见 性 。 在 下 一 代 存 储 体系 架构 中 ， 我 们 试图 在 
虚拟 化 层 和 存储 之 间 建 立 更 加 智能 的 关系 ， 比 以 往 任何 时 候 都 更 需要 感知 虚拟 机 和 它们 的 工作 负载 。 


这 种 策略 驱动 的 存储 机 制 是 VMware 新 一 代 存 储 解决 方案 的 基础 。 我 们 之 前 强调 过 ， 主 要 的 应 用 场景 是 利用 策略 自动 化 按照 
相应 的 存储 级 别 为 虚拟 磁盘 寻找 存储 位 置 。 这 种 基于 应 用 需求 和 服务 级 别 来 选择 存储 资源 的 能 力 是 软件 定义 企业 的 关键 能 力 之 
一 。 这 种 能 力 通过 SPBM 机 制 来 提供 ， 使 运 维 团队 可 以 更 有 效率 地 选择 虚拟 机 的 初始 位 置 ， 持 续 维护 系统 以 及 响应 工作 负载 的 需 
求 变 更 。 


在 软件 定义 企业 中 ， 可 以 通过 SPBM 来 完全 自动 化 地 放置 虚拟 机 ， 管 理 员 不 需要 再 为 部 署 应 用 寻找 正确 的 集群 ， 也 不 需要 关 
心虚 拟 机 是 否 放置 到 了 正确 的 数据 存储 集 上 。VMware SPBM 机 制 包含 下 列 关 键 组 件 : 


: 一 个 跨越 所 有 虚拟 机 的 通用 策略 框架 ， 不 论 这 些 虚 拟 机 在 Virtual Volumes、Virtual SAN 还 是 传统 的 VMFS 存 储 卷 上 。 


` 一 个 通用 API 层 ， 它 服务 于 云 管理 平台 (CMP) ， 如 vRealize Automation、QOpenstack、vCloud Directotr for Service 


Providers， 使 用 PowerShell、JavaScript、Python 的 脚本 用 户 ， 以 及 包括 vVRealize Orchesttatot 在 内 的 协作 平台 。 
“ 代表 应 用 和 虚拟 机 的 服务 级 别 需 求 。 
. 消费 通过 VASA1 和 VASA 2 发 布 的 功能 。 


利用 SPBM，vSphere 运 维 团队 可 以 创建 配置 文件 ， 并 将 它们 发 布 到 云 和 管理 平台 的 自动 化 层 ， 以 通过 服务 级 别 而 非 技术 细 
节 来 管理 存储 消费 。 在 后 台 ，SPBM 负 责 保证 存储 系统 是 遵循 策略 和 配置 文件 的 。SPBM 还 负责 : 


.建立 一 个 稳定 、 可 靠 、 可 重用 和 标准 化 的 存储 平台 。 
“ 在 虚拟 机 或 雇 拟 磁盘 级 别提 供 智能 放置 以 及 服务 和 容量 控制 。 
` 将 自动 化 与 编排 抽象 到 底层 存储 ， 以 简化 运 维 团队 的 工作 负担 。 


SPBM 框 架 使 vSphere 管 理 员 可 以 从 创建 存储 策略 开始 ， 可 以 是 一 个 非 技 术 的 存储 级 别 ， 例 如 tier-1-business-critica| 或 
test-noncritical。 这 些 存 储 策略 不 光 能 定义 性 能 级 别 ， 也 能 根据 底层 存储 硬件 或 软件 的 能 力 ， 如 缓存 预 留 百分比 或 复制 RPO 冰 
值 等 来 提供 更 具 细 粒度 的 特性 。 


可 用 性 能 力 (包括 可 恢复 点 目标 (RPO) 、 可 恢复 时 间 目 标 (RTO) 、 加 密 和 预 留 周 期 ) 可 以 通过 SPBM 框 架 来 交付 ， 使 存 
储 管理 员 可 以 基于 应 用 和 业务 对 数据 保护 的 需求 来 创建 策略 。 此 外 ，SPBM 确 保 磁 盘子 系统 与 嵌入 存储 策略 能 力 的 负载 服务 级 别 
一 致 。 


在 本 章 的 后 面 ， 我 们 会 讨论 SPBM 的 能 力 以 及 与 Virtual SAN 的 特殊 关系 。 在 第 8 章 中 ， 我 们 会 介绍 Virtual Volumes 如 何 使 
用 这 个 框架 以 便利 用 第 三 方 存储 能 力 。 


3.VMware 对 象 存储 概览 


VMware 的 下 一 代 策 略 驱动 存储 方案 不 再 基于 传统 的 VMFS 存 储 卷 ， 而 是 基于 对 象 存 储 系统 模型 。 但 是 ， 这 并 不 意味 着 
Virtual SAN 或 Virtual Volumes 数 据 存 储 与 Amazon S3 或 其 他 基于 对 象 的 存储 系统 类 似 。 


新 一 代 的 虚拟 数据 存储 并 不 基于 我 们 在 第 2 章 中 讨论 过 的 常规 块 存储 系统 中 的 LUN， 而 是 基于 虚拟 数据 存储 或 分 布 式 数 据 存 


储 ， 我 们 会 在 本 章 后 面 详细 介绍 。 访 问 方式 与 Amazon S3 等 其 他 各 种 可 用 的 对 象 存储 解决 方案 并 不 相似 ， 这 种 新 一 代 的 数据 存 
储 是 VMware 对 基于 对 象 存储 的 一 种 特定 实现 。Virtual SAN 和 Virtual Volumes 都 可 以 提供 这 种 新 型 的 对 象 存储 访问 ， 并 不 是 
所 有 的 对 象 存储 都 是 相同 的 。 现 在 有 一 种 多 态 的 对 象 存储 访问 类 型 和 体系 架构 存在 ， 与 第 2 章 中 所 论述 的 传统 块 设备 的 LUN 和 

NAS 的 卷 完 全 不 同 。 虽 然 VMware 使 用 对 象 和 对 象 存 储 这 些 术语 ， 但 是 在 Virtual SAN 和 Virtual Volumes 环 境 下 它们 的 意义 是 
不 同 的 。 


VMware 新 的 对 象 存储 方案 完全 是 软件 定义 的 ， 除 了 支持 存储 阵列 ， 还 可 以 利用 服务 器 内 部 的 廉价 磁盘 为 对 象 提供 集群 学 围 
的 永久 共享 存储 。 这 也 为 IT 组 织 和 服务 提供 商 提 供 了 可 靠 的 企业 级 特性 ， 使 它们 可 以 将 传统 存储 平台 转换 为 更 加 面向 服务 的 基础 
架构 : 


基于 商用 服务 器 的 对 象 存 储 资源 
. RESTful API 对 象 访 问 
: 企业 级 的 可 用 性 级 别 


* 桶 和 对 象 版 本 管理 及 对 象 元 数据 


4.1 Virtual SAN 概 览 


Virtual SAN 的 历史 很 短 。VMware 在 发 布 vSphere 5.5 Update 1 时 首次 介绍 了 Virtual SAN 产 品 ， 但 是 这 一 新 平台 的 发 展 
速度 非常 快 ， 在 之 后 的 一 段 时 间 里 相继 发 布 了 一 些 新 版 本 。 


到 写作 本 书 时 为 止 ， 已 经 有 4 个 主要 版 本 的 Virtual SAN 发 布 ， 如 表 4-1 所 示 。 


表 4-1 Virtual SAN 的 主要 发 布 版 本 









Virtual SAN 发 布 
Virtual SAN 1.0 


vSphere 发 布 首次 可 用 
vSphere 5.5 Update 1 2014 年 3 月 











第 二 代 Virtual SAN 6.0 VSphere 6.0 2015 年 3 月 





第 三 代 Virtual SAN 6.1 vSphere 6.0 Update 1 2015 年 9 月 











VMware Virtual SAN 6.2 VSphere 6.0 Update 2 2016 年 3 月 





为 了 建立 一 个 基线 ， 本 书 主要 关注 vSphere 6.0 Update 2 之 上 的 Virtual SAN 6.2。 但 出 于 相关 性 或 兴趣 的 原则 ， 之 前 的 版 
本 也 会 被 提 及 。 


VMware Virtual SAN 是 一 个 构建 于 vSphere 虚 拟 化 层 之 内 的 软件 定义 存储 特性 ， 通 过 配置 本 地 连接 存储 设备 来 创建 集群 范 
围 的 分 布 式 数据 存储 。vSphere 将 CPU 和 内 存 抽象 并 聚合 为 计算 资源 的 逻辑 池 ，Virtual SAN 谋 入 到 虚拟 化 层 的 VMkernel， 将 服 
务 器 连接 磁盘 设备 池 化 为 一 个 高 性 能 、 集 群 范围 的 分 布 式 数据 存储 ， 用 于 敏捷 高 效 地 承载 虚拟 机 工作 负载 。 


为 了 在 vSphere 环 境 中 利用 Virtual SAN， 必 须 为 集群 中 参与 服务 的 主机 配置 至 少 一 个 闪存 设 备 和 一 个 容量 盘 ， 闪 存 设备 不 
贡献 存储 容量 ， 而 是 用 于 实现 读 缓存 和 写 缓存 。 将 Virtual SAN 集 群 中 的 每 一 台 服 务 器 主机 中 的 磁盘 设备 聚合 起 来 就 形成 了 分 布 
式 Virtual SAN 数 据 人 存储 。 如 果 设 计 正 确 ，Virtual SAN 不 会 存在 单一 故障 点 ， 因 为 它 用 到 的 核心 技术 是 分 布 式 的 基于 对 象 的 独立 


节点 元 余 阵 列 架 构 。 


如 果 应 用 需要 使 用 比 传统 SAN 和 NAS 存 储 设 备 更 经 济 的 共享 人 存储 资源 ， 这 种 方法 基本 上 都 可 以 满足 要 求 。Virtual SAN 直 入 
合体 系 架构 具有 下 述 主要 特性 : 


' 系统 天 生 具 备 容错 功能 。 如 果 设 计 正 确 ， 不 存在 单一 故障 点 ， 故 障 可 以 在 不 停机 的 情况 下 排除 挤 。 
" 整个 系统 与 VCenter Servet 紧 密集 成 ， 并 由 vCenter Servet 负 责 自动 化 管理 。 

“ 集群 中 ESXi 主 机 上 的 本 地 连接 存储 聚合 成 为 一 个 分 布 式 数据 存储 。 

Virtual SAN 是 针对 内 存 优化 的 ， 闪 存 设备 的 唯一 目的 就 是 提供 I/O 〇 加速。 

: 解决 方案 基于 以 虚拟 机 为 核心 的 数据 操作 ， 并 以 策略 驱动 的 管理 为 首要 原则 。 

Virtual SAN 在 VMkernel 层 与 vSphere 深 度 集成 。 


Virtual SAN 是 一 个 超 融 合 产 品 ， 通 过 运行 了 vSphere 虚 拟 化 层 的 相同 的 x86 服 务 器 为 虚拟 机 提供 存储 与 计算 服务 。Virtual 
SAN 强 于 其 他 第 三 方 HCI 产 品 的 关键 点 之 一 是 ， 它 从 最 初 就 被 设计 成 与 ESXi VMkernel 完 全 集成 的 组 件 ， 专 门 设 计 用 于 为 虚拟 机 
提供 存储 资源 。 紧 密集 成 的 结果 是 ，Virtual SAN 与 整个 vSphere 产 品 集 可 以 无 颖 地 互 操作 ， 包 括 vMotion、 高 可 用 (HA) 、 对 
称 多 处 理 容错 (SMP-FT) ， 以 及 分 布 式 资源 调度 (DRS) 。 除 了 这 种 高 级 别 的 集成 之 外 ，Virtual SAN 也 专注 于 提供 高 性 能 ， 
以 及 高 可 用 性 和 高 度 扩 展 性 等 企业 级 特性 ， 以 满足 业务 关键 应 用 虚拟 化 对 系统 稳定 性 的 要 求 。 


本 章 的 余下 部 分 将 关注 于 Virtual SAN 存 储 设计 中 的 相关 组 件 以 及 其 中 用 到 的 技术 、 体 系 架构 以 及 实现 时 需要 考虑 的 地 方 。 
这 里 的 设计 建议 都 基于 VMware 软 件 定义 存储 模型 的 最 佳 或 常用 实践 。 


4.2 Virtual SAN 体 系 架构 
Virtual SAN 存 储 平 台 通 过 各 种 容易 理解 的 组 件 和 技术 来 支撑 ， 所 有 这 些 组 件 既 保持 着 自己 的 独立 性 又 彼此 紧密 联系 。 这 种 


设计 方式 使 组 件 之 间 无 颖 地 协作 ， 以 提供 高 性 能 、 持 续 可 用 、 低 延 时 的 存储 平台 。 我 们 先 来 谈 谈 磁 盘 组 。 


4.2.1 _ Virtual SAN 磁 盘 组 


Virtual SAN 使 用 磁盘 组 将 内 存盘 池 化 为 缓存 设备 ， 机 械 或 内 存盘 作为 容量 设备 ， 作 为 一 个 独立 的 管理 结构 ， 如 图 4-2 所 
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图 4-2 ”磁盘 组 配置 


磁盘 组 的 准确 配置 可 以 基于 一 些 设计 因素 改变 。 例 如 ， 一 个 Virtual SAN 混 合 磁 盘 组 由 一 个 写 缓存 和 读 缓 存 固态 盘 设备 
(SSD) 和 至 少 一 个 机 械 盘 容量 设备 (也 称 为 高 密度 磁盘 ， 或 HDD) 组 成 ， 磁 盘 用 于 提供 永久 存储 。 在 混合 磁盘 组 中 ， 固 态 盘 
用 于 提供 性 能 层 ， 作 为 读 缓存 和 写 缓存 使 用 ， 而 容量 设备 (在 混合 模式 下 是 机 械 盘 ) 用 于 提供 永久 存储 容量 。 每 台 vSphere 主 机 
可 支持 最 多 5 个 磁盘 组 ， 每 个 磁盘 组 由 1 个 缓存 设备 、1 ~ 7 个 容量 设备 构成 ， 如 图 4-3 所 示 。 
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图 4-3 ”Virtual SAN 混 合 磁盘 组 配置 


第 二 代 VMware 超 融合 存储 平台 Virtual SAN 6 在 原 有 混合 磁盘 选项 的 基础 上 增加 了 全 闪存 磁盘 组 配置 ， 这 种 全 闪存 架构 使 
Virtual SAN 的 数据 存储 可 以 完全 基于 固态 闪存 设备 。 闪 存 设备 服务 于 两 个 层 : 耐久 型 闪存 设备 用 于 写 缓存 ， 大 容量 闪存 设备 用 
于 持续 数据 存储 。 


Virtual SAN 全 闪存 磁盘 组 配置 与 混合 方案 遵循 同样 的 模型 ， 也 由 两 个 层 构 成 ， 如 图 4-4 所 示 。 主 要 区 别 是 全 闪存 配置 中 内 
存 设 备用 于 实现 全 部 两 个 层 ， 提 供 耐久 的 写 缓存 和 容量 。 容 量 闪 存 设 备用 于 永久 数据 存储 ， 与 混合 模式 下 的 磁盘 相似 。 与 混合 模 
式 相似 ， 配 置 全 闪存 磁盘 组 时 ， 必 须 指定 一 个 耐久 型 闪存 设备 。 





























图 4-4 Virtual SAN 全 闪存 磁 奏 组 配置 


作为 Virtual SAN 设 计 的 一 部 分 ， 你 必须 对 每 一 个 磁盘 组 中 的 磁盘 类 型 和 容量 、 每 一 台 主机 中 磁盘 组 的 数量 ， 以 及 每 个 磁盘 
组 中 需要 的 磁盘 数量 做 出 适当 的 决定 。 提 供 了 这 些 关 键 的 设计 指标 ， 也 就 指定 了 闪存 与 磁盘 的 比率 ， 或 耐久 型 内 存 与 容量 内 存 的 
比率 ， 这 些 信 息 在 完成 最 终 配置 时 都 需要 用 到 |。 


磁盘 组 中 用 于 提供 永久 存储 的 容量 盘 越 多 ， 就 意味 着 需要 配置 更 多 的 SSD 来 提供 缓存 和 缓冲 功能 ， 以 便 可 以 维持 一 个 可 接受 
的 读 写 性 能 等 级 。 两 个 存储 层 之 间 的 比率 低 会 增加 交付 成 本 ， 因 为 每 个 磁盘 组 中 的 缓存 设备 只 能 有 一 个 。 我 们 需要 配置 更 大 容量 
的 耐久 型 闪存 ， 因 为 每 个 磁盘 组 只 能 有 一 个 闪存 设备 作为 缓存 ， 至 少 一 个 磁盘 用 于 容量 。 但 是 下 面 将 讨论 ， 当 使 用 较 低 的 比率 
时 ， 就 意味 着 我 们 对 存储 平台 的 性 能 有 着 更 高 的 期 待 ， 直 接 结果 就 是 有 更 多 的 数据 会 被 保持 在 闪存 设备 上 。 


在 判断 每 台 主 机 的 磁盘 组 数量 和 容量 闪存 比 时 ， 必 须 考虑 Virtual SAN 数 据 存储 所 需要 的 存储 容量 。 这 就 需要 考虑 可 用 性 设 
计 因 素 ， 例 如 定义 “允许 出 错 的 磁盘 数量 ” (Number of Failures to Tolerate) 人 存储 策略 ， 本 章 后 面 将 介绍 这 部 分 内 容 。 


在 了 解 了 客户 在 性 能 和 容量 方面 的 需求 之 后 ， 我 们 就 可 以 估算 出 每 台 主 机 的 磁盘 组 数量 以 及 耐久 型 闪存 和 容量 设备 比率 的 最 
佳 配 置 。 决 定 这 些 参数 的 最 主要 因素 是 在 满足 客户 各 种 需求 的 前 提 下 ， 在 性 能 、 可 用 性 、 容 量 和 成 本 之 间 找 到 一 个 平衡 点 。 


在 磁盘 组 中 添加 更 多 的 容量 磁盘 ， 不 只 会 增加 Virtual SAN 数 据 存储 总 的 可 用 空间 ， 也 会 改善 虚拟 机 的 可 用 性 ， 为 对 象 和 组 
件 的 跨 主机 放置 提供 更 多 的 可 选项 。 另 外 ， 在 主机 中 配置 较 多 的 小 磁盘 组 会 显著 地 改善 性 能 ， 因 为 会 有 更 高 比例 的 工作 数据 被 组 
存 。 但 是 考虑 到 成 本 ， 这 种 方法 有 时 候 并 不 可 行 ， 因 为 这 种 设计 需要 增加 昂贵 的 耐久 型 内 存 设备 。 


取决 于 每 个 磁盘 组 配置 容量 磁盘 的 数量 ， 以 及 每 台 主 机 配置 磁盘 组 的 数量 ， 总 的 可 用 存储 空间 可 能 有 非常 大 的 差别 。 对 于 典 
型 的 负载 来 说 ， 最 初 的 磁盘 组 配置 可 以 基于 以 下 因素 来 考虑 : 


. 数据 存储 需要 的 总 存储 容量 


- 设计 的 容错 需求 ， 这 包括 允许 出 错 的 磁盘 数量 (Numbet of Failures to Tolerate，FTT) 、 故 障 域 (ED) 配置 ， 以 及 延伸 


Virtual SAN 集 群 场景 。 
: 每 个 磁盘 组 中 总 的 闪存 容量 的 百分比 。 


如 果 没 有 特定 的 客户 需求 ， 则 最 好 从 每 台 主机 两 个 磁盘 组 开始 ， 每 个 磁盘 组 内 配置 3 块 容量 盘 和 一 个 缓存 设备 。 这 种 配置 可 
以 为 每 台 主 机 提供 两 个 故障 域 并 可 提升 IOPS。 每 台 主 机 会 包括 两 个 用 于 缓存 的 内 存 设备 ， 以 及 6 块 用 于 提供 容量 的 内 存盘 或 机 械 
盘 ， 如 图 4-5 所 示 。 基 于 客户 的 负载 和 容量 需求 ， 可 以 在 每 个 磁盘 组 中 使 用 更 多 或 更 少 的 磁盘 。 作 为 架构 师 ， 确 保 Virtual SAN 


平台 可 以 满足 客户 需求 是 你 的 职责 。 


容量 磁盘 和 缓存 设备 的 比率 通常 取决 于 客户 的 应 用 场景 和 工作 负载 的 特性 。VMware 的 最 佳 实践 指导 原则 是 ， 总 的 缓 仓 容量 
不 少 于 磁盘 组 中 总 的 可 用 持续 存储 容量 的 10%， 这 条 规则 既 适 用 于 混合 阵列 ， 也 适用 于 全 闪存 配置 。 这 一 计算 应 该 在 考虑 由 FTT 
存储 策略 定义 的 对 象 组 件 副本 之 前 进行 。 数 据 存储 的 尺寸 计算 以 及 缓存 的 计算 公式 会 在 本 章 后 面 再 做 更 详细 的 介绍 。 
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图 4-5 ”磁盘 组 配置 示例 


























4.2.2 ” Virtual SAN 混 合 与 全 闪存 模式 比较 


正如 我 们 前 面 强调 的 ， 随 着 vSphere 5.5 Update 1 发 布 的 Virtual SAN 第 1 版 只 有 一 个 磁盘 组 配置 选项 ， 就 是 我 们 现在 所 说 
的 混合 模式 。Virtual SAN 6 发 布 以 后 ， 就 支持 两 个 磁盘 组 配置 选项 了 : 原 有 的 混合 配置 同时 利用 闪存 设备 和 机 械 磁 盘 ， 新 的 全 
闪 配 置 两 个 层级 都 使 用 闪存。 


写作 本 书 时 ， 混 合 配置 是 Virtual SAN 设 计 中 最 常见 的 选择 。 混 合 解决 方案 使 用 一 个 单独 的 闪存 设备 作为 缓存 层 ， 一 个 或 多 
个 机 械 盘 提供 容量 和 永久 数据 存储 服务 。 在 全 闪存 配置 中 ， 闪 存 设备 既 被 用 作 写 缓冲 ， 又 被 用 做 容量 盘 ， 尽 管 每 个 功能 所 使 用 的 
设备 类 型 是 不 同 的 。 实 现 一 个 全 闪存 配置 的 成 本 可 能 非常 高 ， 除 了 闪存 设备 本 身 ，10Gbps 的 网 络 和 高 级 版 Virtual SAN 许 可 是 
强制 性 的 。 因 为 这 个 ， 至 少 在 写作 本 书 的 时 候 ， 这 种 模型 只 用 于 特定 的 工作 负载 ， 希 望 这 种 情况 在 不 远 的 将 来 能 够 有 所 改变 。 


成 本 的 增加 也 带 来 了 好 处 ， 与 混合 模式 相 比 ， 全 闪存 的 Virtual SAN 具 有 高 度 可 预测 性 和 一 致 的 性 能 ， 不 受 工作 负载 类 型 的 
影响 。 不 论 是 混合 模式 还 是 全 闪存 模式 ，VMware 都 建议 为 可 用 容量 配置 不 少 于 10% 的 缓存 。 但 是 ， 这 两 种 类 型 的 Virtual SAN 
磁盘 组 使 用 缓存 的 方式 是 不 同 的 。 


在 混合 模式 中 ， 缓 存 算 法 力图 同时 最 大 化 读 和 写 的 性 能 ， 分 配 70% 的 缓存 用 于 存储 最 常 读 取 的 数据 ， 以 减少 访问 低速 磁盘 的 
次 数 。 余 下 的 30% 可 用 闪存 用 于 写 缓 冲 ， 如 图 4-6 所 示 。 在 Virtual SAN 中 ， 这 是 一 个 可 配置 参数 ， 但 是 强烈 建议 不 要 修改 读 缓 
存 和 写 缓 冲 的 比率 ， 除 非 VMware 技术 支持 人 员 基 于 特定 的 工作 负载 特性 明确 指出 应 该 修改 这 个 数值 。 
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图 4-6 ”解析 混合 模式 下 的 读 、 写 和 倒 盘 操作 


除了 Virtual SAN 提 供 的 读 缓存 机 制 ，Virtual SAN 缓 存 算法 也 负责 维护 主机 内 存 中 的 元 数据 ， 少 量 的 主机 RAM 为 那些 SSD 
读 缓存 中 最 近 访问 的 缓存 行 提供 内 存 读 缓 存 。 这 些 内 存 缓存 基于 主机 系统 的 可 用 内 存 动 态 分 配 。 在 Virtual SAN 6.2 中 ，0.4% 的 
主机 可 用 内 存 用 于 此 项 功能 ， 最 多 1GB， 占 用 的 是 虚拟 机 所 在 主机 的 内 存 块 。 


在 全 闪存 解决 方案 中 ， 使 用 两 种 闪存 ， 一 种 是 快速 且 耐 用 的 写 缓存 ， 也 称 为 耐久 型 闪存 设备 ， 以 及 更 大 容量 更 经 济 的 闪存 ， 
也 被 称 为 性 能 分 级 (performance-class) 设备。 


在 Virtual SAN 的 混合 配置 中 ， 闪 存 设备 的 主要 目的 是 提供 缓存 和 绥 冲 机 制 以 保障 性 能 。 而 在 全 闪存 配置 中 ， 目 的 主要 是 提 
高 耐久 性 。 当 然 ， 使 用 更 好 的 设备 作为 写 缓冲 也 可 以 提升 写 性 能 ， 但 耐久 性 仍然 是 主要 目标 。 因 此 需要 为 每 个 磁盘 组 配置 一 个 高 
耐久 性 的 闪存 盘 ， 以 确保 重度 I/O 密 集 的 写 操作 不 会 直接 落 到 容量 内 存盘 中 。 可 以 使 用 低级 别 的 盘 ， 以 降低 方案 的 总 体 拥有 成 
本 。 


与 混合 解决 方案 相反 ， 在 全 闪存 配置 中 ， 耐 久 型 设备 提供 的 容量 100% 用 于 写 缓冲 ， 第 2 层 容 量 SSD 形 成 永久 存储 层 。 如 图 4- 
7 所 示 ， 在 全 闪存 架构 中 ， 读 请 求 主要 由 容量 闪存 设 备 直 接 处 理 。 这 些 SSD 可 以 提供 的 读 取 速度 基本 上 和 耐久 层 一 样 快 。 算 法 对 
那些 即使 是 读 密集 负载 的 最 频繁 访问 请 求 也 可 以 非常 有 效率 地 进行 处 理 。 但 是 如 果 数 据 是 刚刚 写 入 的 热 数据 (还 没有 来 得 及 写 入 
持久 层 ) ， 读 请 求 必 须 由 写 缓冲 层 来 服务 。 
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图 4-7 全 闪存 解决 方案 读 、 写 和 倒 盘 操作 解析 


混合 模式 和 全 闪存 模式 之 间 有 着 本 质 的 不 同 ， 全 闪存 不 存在 读 缓存 未 命中 的 问题 ， 不 需要 将 数据 块 从 容量 层 移动 到 缓存 层 ， 
为 数据 提供 读 缓存 服务 。 而 混合 模式 需要 通过 缓存 数据 来 提高 读 性 能 ， 如 果 闪 存 与 机 械 磁盘 的 比例 没有 针对 负载 进行 优化 ， 会 导 
致 性 能 降级 。 


总 的 来 说 ， 全 闪存 架构 可 以 将 SSD 分 层 ， 写 密集 高 耐久 性 的 缓存 层 用 于 写 操作 ， 读 密集 更 经 济 的 SSD 层 用 于 数据 持久 化 ， 这 
样 可 以 降低 总 体 拥有 成 本 。 使 用 Virtual SAN 全 闪存 架构 时 、 闪 存 设备 智能 分 配 于 缓存 和 数据 持久 化 ， 可 以 提供 高 性 能 及 可 预测 
的 低 延 时 、 毫秒 级 的 响应 时 间 ， 每 秒 的 MO 数 也 可 以 达到 极 高 ， 通 常 一 台 主 机 可 以 高 达 9 万 。 因 此 ， 全 闪存 Virtual SAN 架 构 是 性 
能 人 敏感 负载 和 一 级 业务 关键 应 用 的 理想 平台 ， 对 性 能 有 特殊 要 求 的 话 ， 必 须 通过 这 种 设计 来 满足 。 


此 外 ， 在 设计 全 闪存 解决 方案 时 ， 下 面 这 些 关键 的 设计 因素 也 必须 考虑 清楚 : 
. 至 少 是 vSphere 版 本 6 且 带 有 Virtual SAN 高 级 许可 。 

- 10Gbps 的 网 络 是 必需 条 件 。 

- 全 闪存 配置 支持 的 最 大 主机 节点 数 是 64。 

. 闪存 读 缓 存 预 留 策略 不 适用 于 全 闪存 解决 方案 。 

所 有 驱动 器 必须 被 标记 为 闪存 设备 。 


对 于 缓存 层 来 说 ， 设 备 的 耐久 性 是 重要 指标 。 


4.2.3 ”全 闪存 模式 的 去 重 与 压缩 


全 闪存 解决 方案 的 去 重 与 压缩 功能 是 在 Virtual SAN 6.2 版 本 中 推出 的 。 这 些 技 术 提供 了 基于 软件 的 去 重 和 压缩 服务 以 优化 
全 内 存储 容量 ， 通 过 减少 空间 占用 来 降低 总 体 拥有 成 本 。 


在 我 撰写 本 书 时 ， 固 态 闪存 设备 仍然 很 昂贵 ， 每 吉 字 节 的 价值 并 不 低 ， 但 是 如 果 考 虑 到 每 秒 的 |/O 数 量 ， 它 其 实 也 很 经 济 。 
例如 ， 如 果 花 400 美 元 买 一 块 200GB 的 SSD， 它 可 以 提供 45000 个 IOPS (相当 于 每 个 MO 操作 只 有 0.004 美 元 ) 。 与 1 块 1TB 的 机 
械 盘 相 比 较 ， 它 的 价钱 只 有 固态 盘 的 一 半 ， 但 是 它 只 能 提供 100 个 IOPS (每 个 MO 操作 的 成 本 是 1 美元 ) 。 正 如 大 家 看 到 的 ， 使 
用 全 闪存 配置 最 经 济 的 方式 是 |OPS 最 大 化 ， 而 不 是 容量 。 


此 外 ， 闪 人 存 设 备 的 寿命 是 有 限 的 。 其 寿命 是 通过 设备 生命 周期 内 可 以 写 入 的 次 数 来 衡量 的 。 去 重 和 压缩 一 类 的 技术 可 以 减少 
写 入 的 数据 量 ， 延 长 硬件 的 寿命 ， 从 而 降低 每 个 |/O 操 作 的 总 体 拥有 成 本 。 使 用 这 一 类 技术 可 以 帮助 我 们 面 对 耐 久 设备 的 设计 挑 
战 ， 在 数据 高 度 重复 的 虚拟 桌面 基础 架构 环境 中 ， 可 以 提供 高 达 7 倍 的 数据 量 缩减 ， 并 且 只 占用 少量 的 主机 CPU 和 内 存 。 


去 重 和 压缩 操作 发 生 在 数据 从 耐久 写 缓存 层 到 容量 性 能 层 设备 倒 盘 的 时 候 ， 要 使 用 这 些 功 能 ， 只 需要 在 一 个 启用 了 Virtual 
SAN 的 集群 中 启用 空间 效率 选项 即 可 。 


去 重 和 压缩 缺 省 情况 下 是 禁用 的 。 可 以 启用 它们 ， 而 不 需要 停机 时 间 ， 修 改 如 图 4-8 所 示 的 参数 即 可 ， 它 是 一 个 集群 范围 的 
配置 项 。 需 要 注意 的 是 ， 局 用 这 个 选项 会 引发 一 个 重新 格式 化 磁盘 组 的 过 程 ， 这 可 能 会 花 相 当 长 的 一 段 时 间 ， 也 会 影响 当前 虚拟 
机 的 MO 操作 。 
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图 4-8 ”去 重 和 压缩 在 Web Client 中 的 配置 


去 重 和 压缩 只 存在 于 每 个 磁盘 组 中 。 因 此 ， 位 于 同一 个 磁盘 组 中 的 数据 块 多 副本 会 被 缩减 为 单一 拷贝 ， 但 是 跨 磁盘 组 的 就 不 
会 被 去 重 。 更 大 的 磁盘 组 通常 也 就 意味 着 有 更 高 的 数据 去 重 率 。 


将 去 重 域 的 边界 限制 在 单一 磁盘 组 内 可 以 避免 在 整个 集群 范围 内 全 局 查找 表 (这 会 极 大 地 增加 资源 开销 ) ， 以 节省 出 计算 资 


源 供 其 他 操作 使 用 。 此 外 ， 写 入 的 热点 数据 ， 即 当前 只 存在 于 写 绥 存 中 的 数据 ， 不 做 去 重 和 压缩 ， 以 便 进一步 减少 计算 资源 的 浪 
费 。 
数据 块 被 去 重 后 ， 将 通过 LZ4 无 损 压缩 算法 进行 压缩 。 去 重 操作 以 4KB 块 大 小 为 单位 。 然 后 再 对 这 些 特别 的 4KB 数 据 块 实施 


压缩 。 如 果 压 缩 后 的 数据 块 小 于 或 等 于 2KB， 压 缩 后 的 数据 块 将 取代 4KB 数 据 块 而 被 保存 下 来 。 如 果 压 缩 后 的 数据 块 大 于 2KB， 
数据 块 将 以 非 压缩 的 形式 保存 并 被 记录 。 这 种 机 制 可 以 避免 容量 盘 中 的 数据 块 对 齐 问题 ， 也 可 以 减少 数据 压缩 的 CPU 开销 ， 当 
压缩 比率 较 低 时 ， 所 带 来 的 开销 反而 更 高 ， 如 图 4-9 所 示 。 


特别 的 数据 
本 属国 面 
_ 有 EL 








图 4-9 ”去 重 机 制 





由 于 压缩 和 解压 缩 数据 所 增加 的 额外 CPU 性 能 开销 通常 低 于 5% (在 大 多 数 设计 中 可 以 忽略 ) ， 如 果 解 压缩 操作 经 常 发 生 在 
延 时 敏感 的 |/O 读 请 求 路 径 中 ， 你 就 要 特别 考虑 ， 这 可 能 会 导致 客户 访问 的 总 体 性 能 下 降 。 


去 重 和 压缩 的 使 用 对 SPBM 对 象 空间 预 留 (Object Space Reservation) 能 力 会 产生 潜在 的 影响 。 如 果 在 集群 上 启用 了 去 
重 ， 则 任何 非 缺 省 数值 ( 即 0% 或 100%) 都 是 不 支持 的 。 此 外 ， 如 果 一 个 对 象 的 对 象 空 间 预 留 属性 被 配置 为 100%， 则 只 会 对 该 
对 象 进行 去 重 分 析 ， 但 不 会 发 生 容量 缩减 (因为 整个 容量 都 保留 给 该 对 象 了 ) 。 


当 去 重 和 压缩 被 设计 为 启用 时 ， 容 量 闪存 需求 可 以 减少 为 原来 的 1/7 ~ 1/5。 当 然 ， 这 完全 取决 于 运行 的 负载 。 实 际 的 容量 
层 内 存 节省 会 有 非常 大 的 可 变性 ， 要 看 数据 的 类 型 以 及 有 多 少数 据 能 被 压缩 ， 以 及 重复 的 数据 块 ， 这 些 数据 块 在 磁盘 组 中 的 分 布 
情况 。 正 因为 此 ， 最 好 的 结果 通常 出 现在 VDI 或 相似 环境 中 ， 这 些 场景 下 通常 有 较 高 的 数据 块 重复 度 。 


4.24 ”数据 的 位 置 和 缓存 算法 


Virtual SAN 在 集群 范围 内 的 绥 存 设备 上 使 用 分 布 式 永 久 缓 存 机 制 ， 就 在 数据 副本 存在 的 容量 盘 的 前 面 。 这 种 分 布 式 缓存 机 
制 可 以 带 来 更 好 的 缓存 设备 总 体 利用 率 ， 以 实现 集群 中 存储 资源 的 价值 最 大 化 。 


Virtual SAN 体 系 架构 与 许多 相似 的 第 三 方 解 决 方案 不 同 ， 没 有 只 存在 于 虚拟 机 所 运行 的 主机 本 地 的 永久 客户 端 读 缓存 ， 这 
是 基于 一 些 设计 和 工程 方面 的 考虑 。 


: 不 论 是 容量 盘 还 是 性 能 盘 ， 在 整个 集群 范围 内 闪存 设备 的 均衡 性 和 利用 率 都 较 差 。 
. 在 线 迁 移 (vMotion) 操作 之 后 ， 新 主机 的 缓存 回暖 之 前 ， 虚 拟 机 会 遇 到 严重 的 性 能 影响 。 
“ 实现 仅 本 地 的 客户 端 读 缓存 在 性 能 和 减少 延 时 方面 的 收益 十 分 有 限 。 


Virtual SAN 使 用 分 布 式 的 读 缓存 机 制 ， 读 和 写 分 布 到 所 有 保存 有 副本 的 主机 。 这 样 ， 如 果 一 台 主 机 比较 繁忙 ， 其 他 主机 人 存 
有 的 副本 仍然 可 以 服务 |/O 请 求 。 


此 外 ， 为 了 与 vVMotion 和 DRS 配 合 ， 虚 拟 机 在 集群 内 的 主机 之 间 迁 移 的 时 候 ， 为 了 使 它们 能 够 更 有 效率 地 使 用 计算 资 
源 ，Virtual SAN 使 用 的 缓存 机 制 意味 着 不 需要 跨 主机 迁移 数 吉 比 特 的 数据 。 这 样 对 MO 流 的 影响 是 微不足道 的 ， 不 会 有 额外 的 
性 能 开销 ， 也 不 需要 每 一 次 在 虚拟 机 通过 vMotion 进 行 迁移 操作 ， 将 虚拟 机 迁移 到 新 的 主机 之 后 都 要 回暖 缓存 。 


在 Virtual SAN 环 境 中 ， 源 于 其 分 布 式 存储 系统 的 天 性 ， 这 种 机 制 可 以 很 好 地 工作 。Virtual SAN 将 数据 放置 在 分 布 式 
Virtual SAN 数 据 存 储 的 两 个 或 多 个 位 置 ， 目 的 是 抵御 主机 或 磁盘 故障 。 与 数据 本 地 化 的 方式 相 比 ，I/O 可 以 来 自 集群 中 的 任何 
数据 副本 ， 以 消除 潜在 的 主机 和 磁盘 瓶颈 ， 让 Virtual SAN 运 行 得 更 有 效率 ， 同 时 兼顾 数据 的 可 用 性 并 优化 性 能 。 


接 下 来 你 可 能 会 问 ， 那 网 络 带 来 的 延 时 会 有 什么 影响 呢 ? 如 果 需 要 通过 非 虚拟 机 所 在 的 主机 来 访问 数据 会 怎么 样 ? 10GB 以 
太 网 的 延 时 范围 通常 为 5 ~ 50 微 秒 ， 而 典型 耐久 型 闪存 设备 的 延 时 通常 为 50 ~ 100 微 秒 。 如 果 每 秒 对 耐久 型 闪存 设备 发 起 数 干 个 
MO 操作 ， 在 1 毫秒 延 时 的 基础 上 增加 10 微 秒 ， 对 虚拟 机 的 性 能 是 几乎 没有 什么 影响 的 。 


不 过 ,将 元 数据 存储 在 主机 内 存 中 还 是 非常 有 必要 的 (本章 前 面 强调 过 ) ， 在 虚拟 机 所 在 的 主机 上 ，Virtual SAN 会 在 内 存 
中 开辟 一 小 块 区 域 ， 作 为 SSD 读 缓存 中 最 近 访 问 的 缓存 行 的 RAM 缓 存 ， 这 种 机 制 有 点 类 似 客户 端 缓 存 操作 。 


4.2.5 Virtual SAN 的 倒 盘 机 制 


来 自 不 同 虚 拟 机 磁盘 的 写 数据 快速 堆积 到 耐久 型 闪存 设备 缓冲 区 ， 缺 省 是 30% 的 可 用 空间 。 当 这 部 分 区 域 被 填 满 时 ， 缓 冲 区 
内 最 新 写 入 的 数据 必须 倒 到 由 闪存 盘 或 磁盘 构成 的 容量 层 。 这 决定 于 设计 时 所 采用 的 磁盘 组 模型 ， 在 混合 和 全 闪存 两 种 Virtual 
SAN 模 型 中 ， 倒 盘 机 制 是 不 同 的 ， 机 械 磁 盘 一 般 擅长 于 处 理 顺 序 写 入 负载 ，Virtual SAN 利 用 这 种 特点 使 写 入 过 程 更 有 效率 。 


如 果 是 混合 模型 ， 每 个 磁盘 组 独立 运行 一 个 电梯 算法 ， 在 每 一 台 主 机 的 本 地 进行 决策 ， 以 判断 是 否 需要 将 数据 迁移 到 容量 
盘 ， 如 果 需 要 ， 还 要 考虑 在 何 时 进行 数据 搬迁 。 算 法 采用 多 种 标准 ， 成 批 地 将 大 量 在 存储 位 置 上 相 邻 的 数据 写 入 机 械 磁 盘 ， 数 据 
倒 盘 操作 是 异步 进行 的 。 这 种 顺序 写 入 磁盘 的 机 制 是 为 了 提高 性 能 。 然 而 ， 倒 盘算 法 也 有 些 保守 ， 如 果 写 缓冲 空间 不 紧张 ， 则 不 
会 急于 移动 数据 。 此 外 ， 如 果 写 入 的 数据 可 能 在 很 短 的 时 间 之 内 被 覆盖 ， 这 种 方法 会 避免 将 相同 数据 块 上 的 数据 多 次 写 入 机 械 磁 
盘 。 还 要 注意 的 是 ， 在 写 入 数据 被 从 缓冲 设备 中 丢弃 之 前 ， 容 量 层 磁盘 的 写 缓冲 必须 落 到 永久 存储 设备 中 。 


如 果 是 全 闪存 模型 ，Virtual SAN 将 把 耐久 型 闪存 设备 上 的 全 部 可 用 容量 都 作为 写 缓冲 使 用 。 在 全 闪存 配置 中 ， 采 用 的 机 制 
与 混合 模型 基本 相同 。 但 是 ，Virtual SAN 不 考虑 邻近 算法 ， 这 就 使 倒 盘 到 容量 闪存 设备 上 的 操作 更 有 效率 。 另 外 ， 对 于 全 闪存 
模型 ， 电 梯 算 法 也 有 改变 ， 基 于 数据 块 的 相对 热度 ， 会 将 那些 冷 数据 从 写 缓冲 倒 到 容量 层 。 再 补充 一 点 ， 被 覆盖 的 数据 块 会 在 组 


冲 层 中 留存 更 长 的 时 间 ， 以 减少 容量 层 闪存 设备 的 写 入 次 数 ， 以 增加 它们 的 寿命 。 


4.2.6 ”Virtual SAN 的 分 布 式 数据 存储 


Virtual SAN 数 据 存储 是 一 个 对 象 存 储 ， 以 文件 系统 的 形式 呈现 给 vSphere 主 机 ， 这 个 对 象 存储 服务 会 从 启用 Virtual SAN 集 
群 中 的 每 一 台 主 机 上 加 载 卷 ， 将 它们 展现 为 单一 的 、 在 所 有 节点 上 可 见 的 分 布 式 共享 数据 存储 。 这 是 一 个 重点 ， 值 得 反复 强 
调 ，Virtual SAN 简 化 了 存储 配置 ， 对 于 虚拟 机 来 说 ， 只 有 一 个 数据 存储 。 这 个 分 布 式 数 据 存 储 来 自 Virtual SAN 集 群 中 每 一 台 
vSphere 主 机 上 的 存储 空间 ， 通 过 磁盘 组 进行 配置 ， 在 单独 的 存储 实体 中 存储 所 有 的 虚拟 机 文件 。 


对 象 存储 文件 系统 (OSFS) 使 每 一 台 vSphere 主 机 上 的 VMFS 卷 可 以 挂 接 为 一 个 单独 的 数据 存储 。 在 OSFS 中 没有 目 
录 ，Virtual SAN 上 的 数据 以 数据 容器 的 形式 存储 ， 我 们 称 之 为 对 象 ， 是 一 些 数 据 分 布 于 Virtual SAN 集 群 中 所 有 主机 的 逻辑 卷 。 
一 个 对 象 可 以 是 一 个 VMDK 文 件 、VM 交 换文 件 、 快 照 ， 或 者 虚拟 机 命名 空间 。 对 于 每 一 个 存储 在 Virtual SAN 数 据 存 储 中 的 虚 
拟 机 ， 它 的 每 一 块 虚拟 磁盘 都 对 应 一 个 对 象 。 我 们 称 为 虚拟 机 命名 空间 对 象 的 一 个 容器 也 将 被 创建 ， 以 VMFS 卷 的 形式 进行 维 
护 ， 用 来 存储 虚拟 机 的 元 数据 文件 。 我 会 在 本 章 的 后 续 部 分 对 对 象 做 更 详细 的 解释 。 


Virtual SAN 数 据 存储 在 vCenter Web 客 户 端 上 的 视图 与 传统 的 基于 块 的 VMFS 数 据 存储 是 相同 的 ， 它 毕竟 只 是 一 个 配置 、 
管理 和 监视 Virtual SAN 环 境 的 一 个 接口 。 经 典 的 Windows C# 客 户 端 并 不 支持 Virtual SAN 的 操作 。 


集群 中 的 所 有 主机 ， 且 只 有 集群 中 的 主机 ， 可 以 看 到 分 布 式 Virtual SAN 的 数据 存储 。 但 并 不 需要 所 有 主机 都 贡献 存储 ， 不 
过 我 们 通常 建议 为 集群 中 的 每 一 台 主 机 都 采用 相同 的 配置 ， 包 括 磁盘 组 、CPU、 内 存 、 存 储 控制 器 和 网 络 适配器 ， 如 图 4-10 所 
示 
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图 4-10 Virtual SAN 分 布 式 数据 存储 


每 一 个 Virtual SAN 集 群 在 vCenter Server 中 只 呈现 为 一 个 数据 存储 实体 。 一 个 vCenter Server 可 以 管理 多 个 启用 了 Virtual 
SAN 功 能 的 vsphere 集 群 。 每 一 个 集群 可 用 于 满足 客户 的 不 同 需求 ， 具 有 不 同 的 性 能 和 功能 ， 采 用 不 同 的 缺 省 存储 配置 ， 如 图 4- 
11 所 示 。 














六 1 
1 ! 主机 配置 ( 集群 B ) 

l Component Specification | Component Specification : 
1 ESXi Host CPU 2 x Intel(R) Xeon(R) CPU E5-2690 v2 1 1 ESXiHostCPU 2x Intel(R) Xeon(R) CPU E5-2690 v2 1 
1 @ 3.00 GHz 10C (60 GHz) 1 1 @ 3.00 GHz 10C (60 GHZ2) 1 
1TargetvCPU:pCPU 1:1 1 | TargetvCPU:pCPU 3:1 1 
1 ESXi Host RAM 256 GB 1 1 ESXi Host RAM 256 GB 1 
ESXi Version 6.0 Buiid 3380124 | ESXi Version 6.0 Build 3380124 | 

1 Network Adaptor 2x 10 Gb SFISFP+ 1 | Network Adaptor 2x10 Gb SFI/SFP+ - 
1 Storage Controller 1x12 Ghb/s HBA queue depth 600 1 | Storage Controller 1x 12 Gb/s HBA queue depth 600 1 
1 ESXi Host Disks SSD (3 x 200 GB) Write-Back Buffer 1 |! ESXi Host Disks SSD (3x 200 GB) Read Caching & Write-Back Buffer 
i SSD (9x 400 GB) Capacity SAS 15k (12x 600 GB) Capacity 
! Virtual SAN 磁 盘 组 配置 1 1 Virtual SAN 磁 盘 组 配置 1 
1 Disk Caching Capacity 1 1 Disk Caching Capacity : 
1 Disk Group 1 1x200GB 3x400GB 1 1 DiskGroup1 1x2006B 4x600 GB 1 
1Disk Group 2 1x200GB 3x400GB 1 1 DiskGroup2 1x2006B 4x600GB 1 
! Disk Group 3 1x200GB 3x400GB | ; Disk Group 3 1x200 GB 4 x600 GB : 
! 标准 Virtual SAN 存 储 策略 1 ! 标准 Virtual SAN 存 储 策略 ! 
1 Number of Failures to Tolerate (FTT) 1 1 1 Number of Failures to Tolerate (FTT) 1 1 
1NumberofDisk Stripes per Object 1 1 1 NumberofDisk Stripes per Object 1 1 
1 Flash Read Cache Reservation 0 1 | Flash Read Cache Reservation 0 1 
1 Object Space Reservation 0 | , Object Space Reservation | 
1 Force Provisioning Disabled 1 1 ForceProvisioning Disabled 1 
1 VO Limits None 1 1 lOLimits None 1 
双 ee ee ee oe ee ee ee ee ee ee oe ee ee -. 


图 4-11 多 个 Virtual SAN 数 据 存储 设计 


4.2.7” 对象、 组 件 和 见证 


对 于 虚拟 机 存储 ，Virtual SAN 是 基于 对 象 和 组 件 的 概念 来 构建 的 ， 一 个 对 象 由 一 个 或 多 个 组 件 构成 ， 它 们 根据 指派 给 该 对 
象 的 存储 策略 分 布 于 整个 Virtual SAN 数 据 存储 ， 在 一 个 启用 了 Virtual SAN 的 集群 中 ， 每 一 台 虚 拟 机 可 以 由 4 种 对 象 类 型 构成 ， 
如 表 4-2 所 示 。 


表 4-2 Virtual SAN 对 象 类 型 
对 象 
虚拟 机 根 目录 ， 命 名 空间 对 象 


虚拟 机 交换 对 象 
VMDK 对 象 


描 述 
用 于 存放 虚拟 机 配置 和 日 志文 件 的 地 方 
创建 虚拟 机 交换 文件 ， 这 种 对 象 类 型 只 在 虚拟 机 开机 时 创建 
存储 虚拟 磁盘 上 的 数据 
当 创 建 虚拟 机 快照 时 创建 ， 如 果 选 择 了 快照 内 存 (snapshot memory) 选 
项 ， 则 创建 或 挂 起 虚拟 机 时 ， 内 存 对 象 也 会 被 创建 














快照 变量 VMDK 对 象 





每 一 个 组 件 最 大 可 达 255GB。 如 果 对 象 超过 这 个 尺寸 ， 它 将 被 条 带 化 ， 基 于 容量 被 分 成 多 个 组 件 。 此 外 ， 如 果 对 象 的 尺寸 
超过 单个 物理 磁盘 的 容量 ， 它 也 会 被 自动 地 分 割 成 多 个 组 件 。 这 种 设计 对 于 全 闪存 配置 来 说 特别 合适 。 例 如 ， 如 果 一 个 磁盘 组 由 
200GB 的 容量 SSD 构 成 ， 如 果 一 台 虚 拟 机 带 有 一 块 容量 超过 200GB 限 制 的 虚拟 磁盘 ， 这 块 盘 将 根据 容量 被 分 割 成 多 个 条 带 ， 存 人 


于 多 个 容量 闪存 设备 。 对 象 也 会 根据 被 指派 的 存储 策略 ， 基 于 性 能 和 可 用 性 需求 被 分 割 为 多 个 条 带 。 


一 个 对 象 的 组 件 部 分 会 利用 Virtual SAN 的 分 布 式 RAIN 架 构 ， 自 动 写 到 多 个 磁盘 组 和 集群 节点 。 这 里 会 用 到 两 种 技术 ， 条 带 
(RAID 0) 和 镜像 (RAID 1) ， 如 图 4-12 所 示 。 这 两 种 技术 使 得 启用 了 Virtual SAN 的 集群 具备 容错 、 人 存储 大 型 对 象 ， 以 及 满 
足 性 能 需求 的 能 力 。 组 件 副本 和 条 带 的 数量 基于 我 们 前 面 摘 述 过 的 因素 创建 ， 通 过 SPBM 架 构 中 的 对 象 策略 定义 来 配置 ， 本 章 的 

后 面 将 详细 介绍 这 一 部 分 内 容 。 


在 Virtual SAN 6.0、Virtual SAN 6.1 和 Virtual SAN 6.2 中 ， 每 台 主 机 的 最 大 组 件数 是 9000， 更 大 的 和 更 高 元 余 要 求 的 虚拟 
机 会 需要 更 多 的 组 件 。 这 是 一 个 设计 约束 ， 它 会 限制 一 台 主 机 所 能 扩展 的 上 限 ， 包 括 每 台 主 机 的 磁盘 组 数量 和 每 个 磁盘 组 中 大 容 
量 机 械 磁 盘 的 数量 。 例 如 ， 每 台 主 机 最 多 有 5 个 磁盘 组 ， 每 个 磁盘 组 最 多 有 7 块 容 量 磁盘 ， 如 果 使 用 4TB 的 机 械 磁盘 ， 那 么 单一 主 
机 可 以 提供 的 原始 容量 差不多 是 140TB。 尽 管 这 是 一 个 极端 的 例子 ， 每 台 主机 的 最 大 组 件数 量 应 该 是 设计 的 因素 之 一 。 但 是 使 用 
VirstoFS 磁 盘 格 式 时 这 好 像 就 不 是 一 个 约束 了 ， 这 部 分 我 们 后 面 会 做 更 多 的 介绍 。 此 外 ， 要 避免 启用 Virtual SAN 的 集群 达到 最 
大 配置 上 限 ， 估 算 好 环境 容量 并 保证 它 能 够 满足 用 户 需 求 是 非常 关键 的 。 


要 计算 一 个 典型 用 户 工作 负载 占用 的 大 约 组 件数 量 ， 可 以 基于 对 环境 当前 状态 的 分 析 和 来 自用 户 的 新 需求 。 例 如 ， 一 台 带 有 
一 个 500GB 磁 盘 的 虚拟 机 ， 在 没有 快照 的 情况 下 会 占用 下 面 这 些 组 件 : 


: 虚拟 机 的 VM 命名 空间 对 象 占用 2 个 (假设 FTT=1) 
“ 虚拟 机 的 VM 交换 对 象 占用 2 个 (假设 分 配给 该 虚拟 机 的 RAM 少 于 255GB) 
: 虚拟 机 的 500GB VMDK 对 象 占用 4 个 (假设 没有 更 多 的 条 带 且 FTT=1) 


“ 见证 组 件 占用 1 个 














| VMDK-1a VMDK-lb | 见证 | VMDK-2a VMDK-2b, 
| 1 
| 1 


| | 
| ”条 带 VMDK(>255 GB) 共 500 GB | 








图 4-12 Virtual SAN 磁 盘 组 件 


见证 组 件 是 一 个 0 长 度 组 件 ， 只 包含 有 元 数据 。 使 用 见证 组 件 的 目的 是 确保 任何 时 刻 都 只 有 一 个 网 络 分 区 可 以 访问 一 个 对 
象 。 例 如 ， 考 虑 这 样 一 种 故障 场景 ， 两 台 vSphere 主 机 通过 一 个 Virtual SAN 网 络 进行 通信 。VMDK 对 象 被 配置 为 一 个 副本 ， 
此 在 第 2 台 vSphere 主 机 上 有 VMDK 的 副本 。 如 果 Virtual SAN 网 络 断 掉 ， 两 台 主 机 就 不 再 能 够 相互 通信 了 ， 即 使 两 台 主机 还 在 运 
行 ， 也 可 以 正常 访问 其 他 网 络 ， 虚 拟 机 应 该 通过 哪个 分 区 来 访问 数据 呢 ? 


如 图 4-13 所 示 ， 在 这 种 故障 场景 下 ， 为 了 避免 脑 裂 的 情况 出 现 ， 见 证 元 数据 用 来 进行 决策 投票 ， 这 样 就 可 以 确保 只 有 一 个 
网 络 分 区 可 以 访问 该 对 象 。 


4.2.8 ”磁盘 格式 


Virtual SAN 6 引入 了 一 种 新 的 磁盘 格式 。 这 个 新 的 第 2 版 本 磁盘 格式 基于 VirstoFS， 极 大 地 提高 了 主机 支持 组 件 的 数量 ， 从 
vSphere 5.5 U1 的 3000 个 增加 到 了 版 本 6 中 的 9000。 新 的 磁盘 格式 也 提供 了 更 好 的 性 能 特性 、 效 率 和 扩展 性 ， 执 行 快照 和 克隆 
时 也 有 更 高 的 性 能 。 新 的 VirstoFS 从 集群 中 的 所 有 主机 上 挂 载 卷 ， 并 将 它们 呈现 为 单一 的 共享 数据 存储 。 与 之 前 的 VMFS-L 磁 盘 
格式 相同 。 








图 4-13 ”见证 元 数据 故障 场景 


新 安装 的 vSphere 6 自动 使 用 VirstoFS 格 式 ， 这 种 格式 只 能 够 在 Virtual SAN 6 或 后 续 版 本 中 使 用 。 由 VirstoFS 所 提供 的 扩展 
性 提升 使 |T 组 织 可 以 在 每 台 主 机 上 部 署 更 多 的 虚拟 机 ， 或 者 更 多 的 虚拟 磁盘 对 象 ， 而 不 会 达到 组 件 的 上 限 。 


表 4-3 提 供 了 一 个 支持 配置 的 概览 。 其 他 的 配置 ， 如 在 Virtual SAN 1 上 使 用 VirstoFS 磁 盘 格 式 ， 是 不 支持 的 。 


表 4-3 ”磁盘 文件 格式 版 本 历史 和 支持 的 配置 








Virtual SAN 版 本 | 格式 类 型 磁盘 版 本 开 销 支持 的 组 件数 量 (每 主机 ) 
1 VMEFS-L vl 每 块 盘 750MB 3000 
6 VMEFS-L vl 每 块 盘 750MB 3000 
6 VirstoFS v2 物理 磁盘 容量 的 1% 9000 
6.1 VirstoFS v2 物理 磁盘 容量 的 1% 9000 
6.2 VirstoFS v2 物理 磁盘 容量 的 1% 9000 











从 设计 的 角度 看 ， 建 议 在 vSphere 6.x 的 全 新 部 署 中 应 该 总 是 使 用 VirstoFS。 影 响 这 种 设计 的 唯一 因素 是 客户 规定 必须 与 集 
群 中 的 vSphere 5.5 主 机 向 后 兼容 ， 但 这 并 不 是 建议 的 配置 。 


要 将 磁盘 文件 格式 从 版 本 1 升级 到 版 本 2， 可 以 采用 滚动 升级 的 方式 来 完成 。vSphere 提 供 了 一 个 内 置 的 工具 ， 当 你 转换 到 
vSphere 6 的 时 候 ， 这 个 升级 是 可 选项 。 因 为 Virtual SAN 1 所 采用 的 VMFS-L 格 式 仍然 被 支持 。 我 们 建议 你 在 升级 到 vSphere 和 
Virtual SAN 6 或 更 高 版 本 时 将 磁盘 文件 格式 升级 为 VirstoFs。 


除了 在 Virtual SAN 6 中 引入 的 新 型 磁盘 文件 格式 ， 这 一 版 本 也 引入 了 一 种 新 的 虚拟 机 快照 机 制 。 这 种 机 制 提供 了 与 旧 系 统 
一 样 的 性 能 ， 同 时 可 以 使 用 新 的 稀疏 磁盘 格式 。 


Virtual SAN 1 的 快照 是 基于 vmfsSparse 重 做 日 志 实 现 的 。Virtual SAN 6 及 以 后 版 本 采用 了 新 的 机 制 ， 使 用 的 是 
vsanSparse 格 式 的 redo log。 这 种 新 型 的 vsanSparse 格 式 利 用 Virtual SAN 磁 盘 格 式 VirstoFS 的 优势 ， 通 过 写 入 并 扩展 内 存 缓冲 
的 能 力 来 实现 更 好 的 性 能 。 所 有 vsanSparse 磁 盘 链 中 的 磁盘 都 将 是 vsanSparse 格 式 ， 除 了 基础 盘 。 


VsanSparse 快 照 仍然 消耗 存储 ， 每 一 个 磁盘 快照 都 会 增加 一 个 Virtual SAN 对 象 。 新 的 快照 格式 在 短 磁盘 链 的 场景 下 可 能 会 
消耗 更 多 的 存储 ， 但 用 不 了 多 久 ， 就 会 和 原 有 的 快照 方式 消耗 同样 多 的 资源 。 


4.2.9 ”交换 效率 / 稀 蚊 交换 


交换 效率 ， 也 称 为 稀疏 交换 ， 在 Virtual SAN 6.2 版 本 中 引入 ， 目 的 是 回收 内 存 交 换文 件 对 象 所 使 用 的 磁盘 空间 。 


一 台 虚 拟 机 在 开机 的 时 候 创 建 一 个 交换 文件 。 这 个 交换 文件 的 大 小 等 于 虚拟 机 使 用 的 内 存 大 小 减 掉 预 留 的 内 存 数 量 。 例 如 ， 
一 台 虚 拟 机 分 配 了 8GB 内 存 ， 并 配置 了 4GB 的 内 存 预 留 ，VSphere 将 会 为 它 创建 4GB 的 虚拟 交换 文件 。 如 果 在 启用 了 Virtual 
SAN 的 集群 中 部 署 ， 假 设 FTT 等 于 1， 这 个 虚拟 机 将 消耗 8GB 的 磁盘 空间 。 如 果 运 维 团 队 部 署 了 800 台 这 样 的 虚拟 机 ， 有 超过 6TB 
的 空间 被 耗 用 。 


与 其 他 对 象 类 型 不 同 ， 交 换 对 象 不 由 SPBM 机 制 管 理 ， 而 是 由 VMkernel 管 理 ， 缺 省 采用 密集 模式 ， 不 管 你 为 该 虚拟 机 分 配 
了 什么 样 的 SPBM 策 略 。 


Virtual SAN 6.2 发 布 以 后 ， 可 以 通过 使 用 高 级 主机 级 别 配置 项 SwapThickProvisioned-Disabled 来 启用 这 个 高 级 主机 配 
置 ， 以 采用 更 有 效 使 用 磁盘 空间 的 方式 来 存储 交换 文件 。VMkerneI 将 在 Virtual SAN 数 据 存 储 上 以 稀 踊 对 象 的 方式 创建 交换 文 
件 。 交 换文 件 只 有 在 数据 块 被 访问 时 才 会 耗 用 磁盘 空间 ， 这 就 可 以 提供 更 多 的 空间 节省 。 如 果 是 采用 大 量 链接 克隆 的 VDI 负 载 ， 
那 可 以 节省 非常 多 的 存储 空间 。 当 然 ， 节 省 空间 的 前 提 是 虚拟 机 不 会 被 过 量 使 用 ， 那 将 会 导致 交换 文件 的 大 量 使 用 。 例 如 ， 物 理 
主机 的 内 存 资源 枯竭 了 ， 虚 拟 机 就 只 能 使 用 交换 文件 而 不 是 物理 内 存 了 。 


4.2.10 _ Virtual SAN 分 布 式 RAID 


在 Virtual SAN 6.2 发 布 之 前 ， 组 件 只 通过 两 种 技术 来 实现 跨 磁盘 组 和 集群 节点 的 分 布 式 部 署 : 条 带 (RAID 0) 和 镜像 
(RAID 1) 。Virtual SAN 6.2 引 入 了 一 组 新 的 功能 ， 即 纠 删 码 (erasure coding) ， 我 会 在 本 章 后 面 与 FTT 功 能 一 起 做 详细 介 


7 
绍 。 


条 带 是 由 NumberofDiskStripesperObejct 参 数 来 控制 的 。 这 条 规则 可 以 通过 存储 策略 应 用 到 想 要 使 用 这 一 特征 的 虚拟 机 或 
者 虚拟 磁盘 上 ， 条 带 将 对 象 数据 分 割 为 组 件 块 或 段 ， 这 些 数 据 组 件 可 以 被 同时 访问 ， 这 样 做 的 目的 是 提高 读 性 能 ， 或 者 只 是 因为 
对 象 尺寸 过 大 。 


镜像 由 NumberofFailurestoTolerate 人 参数 来 控制 ， 它 决定 一 个 对 象 副本 的 数量 。 目 的 是 提高 数据 的 可 用 性 ， 避 免 因为 硬件 
损坏 而 丢失 数据 。 


镜像 和 条 带 可 以 合并 使 用 ， 同 时 提供 元 余 和 读 性 能 。 在 一 条 存储 策略 中 同时 配置 NumberofDiskStripesperObejct 和 
NumberofFailurestoTolerate 两 个 参数 就 可 以 实现 ， 后 面 我 们 会 做 更 多 介绍 。 


4.2.11 ”软件 校 验 码 


软件 校 验 码 在 Virtual SAN 6.2 引 入 ， 也 称 为 磁盘 扇 区 检查 系统 ， 通 过 实施 端 到 端的 数据 校 验 来 保证 数据 在 整个 Virtual SAN 
数据 存储 上 的 完整 性 。 打 开 这 个 特性 可 以 自动 检测 和 解决 磁盘 错误 ， 如 图 4-14 所 示 。 


ee aoed on det werden 
Failure tolerance method ©@ RAID-1 (Mirroring) - Performance "| 全 
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图 4-14 ”软件 校 验 Web 客 户 端 配置 





这 一 特性 缺 省 在 集群 范围 内 启用 ， 也 可 以 通过 SPBM 在 对 象 级 别 进行 修改 。 这 一 特性 的 目标 是 使 用 循环 元 余 校 验 (CRC32) 
算法 来 检测 在 读 写 过 程 中 在 硬件 或 软件 层面 上 发 生 的 数据 损坏 。 


如 果 是 硬件 驱动 器 ， 有 两 种 损毁 事件 可 能 发 生 : 

: 潜伏 的 扇 区 错误 

` 静默 损坏 或 静默 磁盘 错误 

导致 潜伏 扇 区 错误 的 原因 通常 是 物理 磁盘 驱动 器 操作 ， 而 静默 损坏 可 以 在 没有 告警 的 情况 下 发 生 ， 可 能 导致 数据 损失 、 数 据 
毁坏 ， 甚 至 导致 服务 中 断 。 软 件 校 验 码 可 以 非常 有 效 地 在 读 写 操作 时 通过 端 到 端的 完整 性 检查 来 检测 这 种 损坏 ， 通 过 校 验 码 来 确 
保 数据 的 可 用 性 。 如 果 校 验 操 作 检 测 到 数据 不 可 用 ， 它 会 采取 措施 改正 ， 或 者 报告 给 运 维 团队 采取 措施 。 软 件 校 验 码 机 制 通常 会 
采用 下 述 动作 来 改正 错误 : 

. 如 果 采 用 镜像 ， 从 不 同 的 副本 处 取得 数据 ; 如 果 采 用 的 是 RAID 5 和 6 的 纠 删 码 ， 通 过 校 验 数据 取 回 数据 。 即 可 恢复 数据 。 

.如果 故障 场景 没有 可 用 副本 存在 ， 将 会 返回 一 个 错误 ， 即 不 可 恢复 性 错误 。 

通常 软件 校 验 码 机 制 有 下 述 的 报告 行为 : 


* 当 一 个 错误 发 生 时 ， 问 题 会 通过 日 志和 vSphere Web 客 户 端 来 报告 。 错 误 信 息 中 包括 受 影 响 的 数据 块 和 受 影 响 的 虚拟 机 ， 
日 


以 便 运 维 团队 可 以 判断 受 不 可 恢复 错误 影响 的 工作 负载 。 


* 运 维 团 队 也 可 以 查看 每 一 个 驱动 器 的 错误 历史 和 趋势 ， 以 有 助 于 前 脆性 地 判断 硬件 问题 。 


正如 我 在 前 面 提 到 的 ， 软 件 校 验 码 机 制 通过 使 用 CRC32 算 法 增强 了 数据 完整 性 ， 并 通过 CPU 印 载 支持 以 减少 总 体 开 销 。 后 
台 在 两 个 级 别 上 清洗 数据 : 组 件 级 清洗 和 对 象 级 清洗 。 在 组 件 级 别 清 洗 中 ， 每 一 个 组 件 的 每 一 个 数据 块 都 被 检查 ， 如 果 校 验 码 不 
匹配 ， 清 洗 器 会 试图 通过 其 他 组 件 来 读 取 数据 以 修复 数据 块 。 在 对 象 级 别 清洗 中 ， 组 成 对 象 副 本 或 校 验 码 (如 果 采 用 的 是 RAID 
5 或 6 配置 ) 的 每 一 个 数据 块 都 会 被 读 取 并 检查 ， 以 发 现 不 一 致 的 数据 。 一 旦 检测 到 数据 损坏 ， 所 有 数据 将 被 标记 为 损坏 。 在 正 
常 的 |/O 操 作 过 程 中 ， 分 布 式 对 象 管理 器 (DOM) 或 清洗 器 可 以 启动 修复 操作 。 


RAID 1 的 修复 机 制 和 RAID 5 或 6 所 使 用 的 修复 机 制 是 不 同 的 ， 对 于 RAID 1， 当 软件 校 验 操作 发 现 一 个 校 验 错误 后 ，DOM 或 
清洗 器 将 从 其 他 副本 读 取 数 据 ; 如 果 是 RAID 5 或 6， 在 修复 好 受 损 数据 之 前 ， 将 以 4KB 大 小 的 数据 块 为 单位 ， 从 相同 的 条 带 读 取 
数据 ， 这 种 端 到 端的 校 验 机 制 帮助 保障 数据 的 完整 性 ， 以 防范 因为 静默 磁盘 错误 或 潜在 扇 区 错误 导致 的 数据 损坏 。 


4.3 Virtual SAN 设计 需求 


在 Virtual SAN 环 境 中 ， 对 于 最 终 设 计 和 配置 来 说 ， 物 理 硬 件 的 选择 非常 重要 。 这 一 部 分 不 仅 会 介绍 Virtual SAN 设 计时 需要 
考虑 的 硬件 需求 ， 也 会 讨论 一 个 有 意义 的 生产 环境 架构 中 应 该 注意 的 关键 配置 。 


4.3.1 主机 形式 因素 


适用 于 Virtual SAN 的 vsphere 主 机 服务 器 有 几 种 不 同 的 形式 : 独立 的 机 架 式 服务 器 ， 通 常 尺寸 在 1U 到 4U 之 间 ; 刀片 服务 
器 ， 可 以 以 多 种 形式 出 现 ; 以 及 多 节点 单机 箱 服 务 器 ， 特 别 适 用 于 超 融 合 基础 架构 。 这 些 形式 的 服务 器 都 可 以 用 在 Virtual SAN 
环境 中 ， 但 是 每 一 种 都 有 不 同 的 特性 ， 会 对 设计 产生 很 大 的 影响 。 


机 染 式 服务 器 ， 通 常 是 2U 的 形式 ， 是 构建 Virtual SAN 基 础 架构 的 理想 配置 。 它 们 通常 配备 有 16 或 24 个 磁盘 插 槽 ， 这 样 我 
们 就 可 以 配置 多 个 磁盘 组 ， 可 以 实现 垂直 扩展 路 线 。 


虽然 也 支持 刀片 服务 器 ， 但 是 它们 有 限 的 磁盘 容量 ( 半 高 半 宽 刀片 服务 器 只 有 两 个 磁盘 插 槽 ， 全 高 全 宽 刀 片 服务 器 只 有 4 个 
磁盘 插 槽 ) 以 及 它们 对 机 箱 和 其 他 内 部 组 件 的 依赖 ， 导 致 它们 通常 不 适用 于 启用 了 Virtual SAN 的 部 署 。 然 而 ，Virtual SAN 支 持 
用 于 刀片 服务 器 的 直 联 JBOD 设 备 ， 可 以 为 刀片 主机 提供 高 密度 的 直 联 存储 。 这 就 使 得 Virtual SAN 通 过 这 种 刀片 系统 来 获取 足 
够 的 磁盘 空间 成 为 可 能 。 采 用 这 种 类 型 的 受 支持 硬件 是 完全 能 够 满足 设计 需求 的 。 一 些 完全 可 以 满足 客户 超 融 合 基 础 架构 需求 的 
可 扩展 刀片 系统 的 例子 如 下 : 联想 的 Flex SEN 搭 配 x240 刀 片 ， 戴 尔 的 FX2 搭 配 12G 控 制 器 。 


虽然 技术 上 可 行 并 且 Virtual SAN 支 持 ,， 但 是 我 们 不 建议 采用 非 对 称 设计 ， 即 采用 刀片 服务 器 做 计算 节点 ， 采 用 机 架 式 服务 
器 做 计算 和 存储 节点 。 这 种 类 型 的 架构 和 配置 的 维护 比较 复杂 ， 为 了 避免 资源 浪费 ， 在 计算 和 存储 方面 都 需要 严格 地 控制 尺寸 。 


有 一 种 新 型 设计 被 很 多 超 融 合 解决 方案 所 及 用， 将 刀片 尺寸 的 计算 节点 与 机 架 式 服务 器 机 箱 合并 到 一 起 ， 以 提供 一 个 可 行 的 
解决 方案 。 可 以 在 2U 或 4U 的 机 架 式 服务 器 空间 中 配置 24 个 或 者 更 多 的 磁盘 插 槽 。 结 合 具体 的 设计 需求 ， 这 种 新 型 设计 可 以 是 
Virtual SAN 解 决 方案 的 理想 硬件 平台 。 


4.3.2 ”主机 引导 架构 


主机 上 有 多 个 位 置 可 以 安装 ESXi 虚 拟 化 软件 。 通 常 来 说 ，VMware ESX 或 ESXi 会 被 部 署 到 本 地 硬盘 驱动 器 ， 配 置 为 RAID 1 
镜像 对 ， 以 提供 更 好 的 主机 可 用 性 。 最 近 几 年 ， 因 为 成 本 、 电 力 和 简便 等 多 种 原因 ， 广 商 开 始 广 泛 采 用 服务 器 内 置 的 USB 闪 存 设 
备 或 SD 卡 。 随 着 Virtual SAN 的 流行 ， 这 种 趋势 持续 增长 。 但 是 这 种 非 易 失 性 存储 会 被 ESXi 安 装 器 认为 是 可 移动 存储 ， 因 此 会 被 
警告 ， 你 还 得 考虑 如 何 保存 日 志文 件 。 


在 一 个 典型 的 Virtual SAN 环 境 中 ， 主 机 被 配置 为 从 USB、SD 或 其 他 的 非 永久 性 存储 启动 ， 以 最 大 化 永久 磁盘 插 模 的 数量 ， 
进而 增加 可 用 于 虚拟 机 的 存储 。 这 是 一 种 最 佳 实践 。 要 判断 可 迁移 介质 是 否 可 用 ， 你 需要 考虑 以 下 设计 因素 : 


1) 临时 文件 分 区 。ESXi 安 装 程序 不 会 在 USB 闪 存 设 备 或 SD 卡 上 面 创建 临时 文件 分 区 ， 即 使 设备 上 有 足够 的 空间 也 不 会 ， 


为 大 量 的 磁盘 /O 可 能 会 毁坏 它们 。 
2) 介质 质量 。 设 计 需 指明 要 采用 工业 级 SD 卡 或 USB 设 备 来 安装 ESXi 虚 拟 化 软件 ， 如 果 硬 件 支 持 ， 最 好 配置 RAID 1。 


3) 支持 。 对 于 配 有 512GB 或 更 多 内 存 的 主机 ， 这 种 配置 是 不 被 vSphere 支 持 的 。 


1. 日 志文 件 


用 于 存放 日 志文 件 的 物理 位 置 决 定 于 安装 ESXi 所 使 用 的 设备 。 如 果 安 装 设备 是 SD 卡 、USB 闪 存 设备 ， 或 者 通过 SAN 环 境 远 
程 引 导 ， 安 装 过程 中 不 会 自动 创建 本 地 临时 文件 分 区 。ESXi 会 把 这 种 安装 视 为 远程 的 ， 日志， 包括 Virtual SAN 日 志 将 被 存放 在 
RAM 盘 里 ， 即 一 个 由 易 失 性 内 存 块 构成 的 磁盘 驱动 器 ， 主 机 重启 时 内 容 会 丢失 。 可 移动 闪存 对 高 |/O 是 非常 敏感 的 ， 因 此 安装 程 
序 不 会 把 临时 文件 分 区 放置 在 这 类 设备 上 。 


主机 安装 过 程 中 ，ESXi 安 装 器 首先 搜寻 本 地 4GB VFAT 分 区 。 如 果 找 不 到 ， 它 会 继续 寻找 本 地 VMFS 卷 用 来 创建 临时 文件 目 
录 。 如 果 都 找 不 到 ， 系 统 会 将 临时 文件 分 区 放置 在 本 地 RAM 盘 的 /tmp/scratch 目 录 中 。 安 装 完成 后 ， 你 会 在 vCenter 中 看 到 
ESXi 主 机 上 存在 一 条 告警 信息 ， 指 明日 志文 件 存储 在 非 持久 性 存储 中 。 对 于 这 种 情况 ， 应 该 通过 vSphere Web 客 户 端 、CLI 或 者 
安装 脚本 来 配置 ESXi 主 机 的 临时 文件 空间 。 


如 果 日 志 消 息 存 储 在 RAM 盘 中 ， 重 启 后 将 不 会 被 保留 ， 存 储 在 日 志和 核心 文件 中 的 排 错 信息 也 会 丢失 。 如 果 主 机 上 的 永久 
临时 文件 位 置 没有 正确 配置 ， 你 可 能 会 经 历 由 于 临时 文件 空间 不 足 导 致 的 间歇 性 问题 ， 日 志文 件 不 再 被 更 新 。 这 在 内 人 存 少 的 主机 
上 绝对 是 个 问题 ， 但 是 通常 不 影响 其 他 的 ESXi 操 作 。 

如 果 主 机 部 署 时 使 用 的 安装 设备 被 认为 是 本 地 的 ， 则 ESXi 主 机 通常 不 需要 手工 配置 一 个 临时 文件 分 区 。 如 果 没 有 足够 的 空 
间 ，ESXi 安 装 器 在 安装 过 程 中 会 在 目标 设备 上 创建 一 个 4GB FAT16 分 区 。 如 果 配 置 了 永久 临时 文件 空间 ， 这 些 日 志 ( 见 表 4-4) 
将 存储 在 /vavlog 目 录 中 ， 临 时 文件 卷 会 包含 一 个 指向 永久 存储 位 置 的 符号 链接 。 

全 ;+ 总 符号 链接 是 一 种 特定 类 型 的 文件 ， 它 包含 一 个 指定 另 一 文件 〈 绝 对 或 相对 路 径 ) 的 指引 。 

许多 日 志文 件 是 由 ESXi 的 组 件 和 服务 自动 生成 的 ， 表 4-4 提 供 了 一 个 Virtual SAN 日 志清 单 ， 其 中 包含 它们 的 存放 位 置 以 及 
描述 。 


表 4-4 Virtual SAN 日 志和 描述 


日 志文 件 和 永久 位 置 描 述 
/var/log/clomd.log 集群 级 别 对 象 管理 器 (CLOM) 日 志 ， 用 于 CLOM 守护 进程 
/var/log/ostsd.log 对 象 存储 文件 系统 (OSFS) 日 志 ， 用 于 OSFSD 守护 进程 
/var/log/vsanvpd.log Virtual SAN 合作 厂商 日 志 


如 果 唯 一 可 用 的 数据 存储 是 Virtual SAN 数 据 存 储 ， 则 下 一 个 设计 考虑 是 应 该 用 什么 类 型 的 永久 存储 来 存放 日 志文 件 和 
Virtual SAN 跟 踪 文件 。 如 果 永久 存 储 不 作为 设计 的 一 部 分 来 考虑 ， 运 维 团 队 试图 通过 访问 日 志文 件 和 Virtual SAN 跟 踪 文件 以 排 
除 故 障 时 将 会 遇 到 一 个 依赖 循环 。 如 果 他 们 需要 的 文件 存储 在 Virtual SAN 数 据 存 储 ， 环 境 中 的 唯一 永久 性 存储 ， 这 些 文 件 在 重 
大 的 Virtual SAN 故 障 之 后 可 能 无 法 访问 。 


如 果 设 计 导 致 了 依赖 循环 ，ESXi 安 装 在 了 USB 或 3D 设 备 上 ， 所 有 的 本 地 存储 都 分 配给 了 Virtual SAN 磁 盘 组 ， 没 有 本 地 盘 或 
外 部 存储 可 用 于 永久 存放 日 志 ， 那 么 配置 一 个 中 央 的 syslog 收 集 器 和 VMware Dump Collector 就 非常 关键 了 。 


配置 一 个 syslog 收 集 器 ， 例 如 vRealize Log Insight， 通 过 网 络 传送 日 志 ， 而 不 是 存储 在 本 地 ， 或 者 作为 本 地 存储 的 补充 。 


这 样 运 维 团队 在 需要 时 就 可 以 访问 到 大 多 数 的 文件 。 这 样 一 来 ， 配 置 主机 使 用 一 个 中 央 日 志 服务 器 ， 聚 合 分 析 和 搜索 Virtual 
SAN 以 及 其 他 日 志 就 成 为 可 能 了 ， 可 以 非常 方便 地 发 现 那些 影响 集群 中 多 个 主机 的 事件 。 这 种 集中 式 的 日 志 也 给 运 维 团队 和 审 
计 人 员 提 供 了 管理 和 安全 审查 的 能 力 。 跟 踪 文件 同样 不 可 忽视 ， 这 个 我 们 在 后 面 讨论 。 


配置 ESXi 内 存 转 储 通过 网 络 发 送 可 以 提供 主机 发 生 故 障 时 的 工作 内 存 副本 。VMware vSphere ESXi Dump Collector 使 你 
可 以 在 一 个 中 央 服 务 器 上 存储 核心 内 存 转 储 ， 以 便 调 试 分 析 时 使 用 。 如 果 可 能 ， 当 系统 发 生 紫 屏 (PSoD) 故障 时 ， 来 自 
VMKernel 的 内 核 转 储 ， 包 括 在 物理 控制 台 上 可 以 看 到 的 一 切 内 容 都 会 被 保存 。 核 心 转 储 可 以 用 来 分 析 硬 件 问 题 ， 但 只 有 少量 的 
VMware 技 术 支 持 人 员 可 以 做 这 种 分 析 。 


2.Virtual SAN 跟 踪 文件 


Virtual SAN 会 生成 很 多 额外 的 日 志 ， 我 们 称 之 为 跟踪 文件 (Trace files) ， 或 vsantraces， 这 些 文件 需要 写 入 永久 存储 ， 
因为 我 们 会 在 故障 分 析 时 用 到 它们 。 


Virtual SAN 跟 踪 文 件 使 得 VMware 全 球技 术 支 持 团 队 和 工程 师 团队 可 以 清楚 地 看 到 Virtual SAN 的 内 部 都 发 生 了 什么 ， 以 便 
排除 故障 解决 问题 。Virtual SAN 跟 踪 文 件 并 不 会 转发 到 主机 的 syslog 守 护 进 程 ， 因 为 这 种 操作 需要 大 量 的 网 络 带宽 开销 。 
此 ， 如 果 采 用 中 央 syslog 服 务 器 来 捕获 日 志 ，Virtual SAN 跟 踪 文 件 将 不 被 这 种 运 维 监 控 方 案 所 支持 。Virtual SAN 跟 踪 文 件 可 以 
增长 得 很 快 ， 大 小 可 以 达到 500MB， 因 此 我 们 必须 考虑 它们 的 持久 性 和 保留 周期 (特别 是 当 /scratch 没 有 配置 在 引导 存储 设备 
上 时 ) 。 


如 前 所 述 ， 当 主机 的 操作 系统 安装 到 SD 或 USB 存 储 设备 上 后 ，Virtual SAN 跟 踪 缺 省 将 只 存在 于 RAM 盘 ， 但 是 它们 会 
被 /etc/init.d/vsantraced 复 制 到 /locker 目 录 ， 以 保证 主机 重启 时 这 些 文件 得 以 保存 。 但 是 ，/locker 存 储 位 置 空间 很 小 ，Virtual 
SAN 跟 踪 文件 可 能 无 法 完全 被 保留 。 通 常 在 复制 时 会 优先 保存 最 近 的 、 最 重要 的 跟踪 信息 。 这 种 自动 复制 机 制 在 主机 失效 或 
PSoD 事 件 时 不 会 发 生 。 因 为 这 个 原因 ， 跟 踪 文 件 的 保存 和 可 用 性 是 我 们 在 Virtual SAN 设 计 项 目 中 必须 要 解决 的 。 


因为 可 移动 介质 带宽 和 I/O 能 力 都 很 有 限 ，SD 和 USB 设 备 并 不 适合 用 来 永久 保存 跟踪 文件 。vsantraces 产 生 的 大 量 写 操 作 可 
能 会 毁坏 引导 设备 ， 因 此 缺 省 情况 下 不 会 将 Virtual SAN 跟 踪 文 件 放 置 到 可 移动 介质 上 ， 以 保护 SD 或 USB 存 储 设备 的 寿命 并 降低 
损毁 的 风险 。 


vsantraces 的 存储 位 置 决定 于 设计 中 所 使 用 的 引导 设备 。Virtual SAN 跟 踪 文 件 可 以 位 于 I 临 时 文件 分 区 ， 或 者 本 地 引导 硬盘 
(如 果 存 在 ) ， 临 时 文件 位 置 可 以 位 于 一 个 以 VYMFS 方 式 格式 化 的 设备 ， 或 RAM 盘 。 表 4-5 显 示 了 基于 所 用 的 引导 设备 和 Virtual 
SAN 跟 踪 文 件 可 以 存放 的 位 置 。 


表 4-5 ”Virtual SAN 跟 踪 文 件 位 置 


主机 描述 Virtual SAN 跟踪 文件 位 置 


对 于 最 多 只 有 512GB 内 存 的 主机 ，VMware 支持 从 SD 卡 或 USB 
设备 引导 ， 不 需要 永久 存储 设备 .RAM 盘 用 来 存储 VMKkernel 日 志 
RAM 盘 也 被 系统 配置 为 存储 Virtual SAN 跟踪 文件 ， 但 是 在 主机 重 
新 启动 时 会 被 复制 到 /locker 目录 以 持久 化 

核心 转 储 分 区 也 以 压缩 格式 存在 于 了 AM 盘 上 。 如 果 核 心 转 储 事 
件 发 生 ， 将 使 用 2.2GB 的 USB 设备 空间 来 存储 它 。vSphere Dump 
Collector 可 以 与 这 种 配置 同时 使 用 。SD 卡 或 USB 设备 的 最 小 容量 
要 求 是 4GB， 建 议 8GB 或 更 大 。 存 在 于 RAM 盘 里 的 Virtual SAN 
跟踪 文件 在 重启 或 主机 故障 时 可 能 不 会 全 部 保留 。 在 设计 引导 设备 
策略 时 请 仔细 考虑 这 一 因素 


配置 512GB 或 更 
少 内 存 的 ESXi 主机 


SD 卡 或 USB 设备 





主机 描述 引导 设备 Virtual SAN 跟踪 文件 位 置 


对 于 内 存 大 于 512GB 的 主机 ， 不 支持 使 用 SD 卡 或 USB 设备 ， 
必须 使 用 物理 磁盘 设备 作 永 久 存 储 。/scratch 分 区 由 永久 存储 设备 
提供 ,通常 是 在 本 地 磁盘 上 ，VMkernel 日 志 位 于 /tmp 分区。 跟踪 
HDD 或 LUN 文件 在 主机 重启 时 会 被 复制 到 永久 存储 设备 ， 而 不 是 /locker 位 置 
如 果 ESXi 操作 系统 被 安装 到 了 本 地 物理 磁盘 ,本 地 的 VMEFS 分 区 
会 有 足够 多 的 空间 ，/scratch 分 区 缺 省 会 在 本 地 VMFS 卷 上 ， 并 不 
需要 手工 配置 。 缺 省 位 置 是 /vmfs/volumes/vmfs-datastore/.locker/ 


配置 大 于 512GB 
内 存 的 ESXi 主机 


SATADOM 是 一 种 闪存 SSD 设备 ， 看 起 来 像 U 盘 ， 但 它 直 接连 
接 到 服务 器 主板 的 SATA 连接 器 。 这 种 设备 与 前 面 介绍 的 永久 磁盘 
配置 是 有 区 别 的 ，SATA 设备 比 USB 设备 有 着 更 高 的 传输 速率 ， 存 
储 设备 也 不 容易 损毁 ， 跟 踩 文件 将 被 存放 在 安装 主机 操作 系统 时 创 
建 的 /scratch 分 区 里 。 其 他 日 志文 件 的 工作 方式 也 和 使 用 本 地 磁盘 
作为 引导 设备 时 一 致 


使 用 SATADOM 3 引 
导 设 备 的 ESXi 主机 


SATADOM 





内 存 配 置 多 于 或 少 于 512GB 内 存 也 会 影响 PSoD 核 心 转 储 文件 的 大 小 。 


vSphere 5.5 以 前 的 版 本 所 使 用 的 VMcore 分 区 只 有 100MB。 但 是 现在 的 主机 通常 都 支持 更 大 容量 的 物理 内 存 ， 甚 至 可 达 几 
个 TB， 对 于 这 些 主机 来 说 ， 这 个 分 区 就 太 小 了 。 随 着 vSphere 5.5 版 本 的 发 布 ， 引 入 了 新 的 2.2GB VMKdiagnostic 分 区 ， 以 捕获 
有 更 大 内 存 容量 的 ESXi 主 机 上 的 核心 文件 。 


如 前 所 述 ，VMware 支 持 最 小 4GB 容 量 的 SD 或 USB 设 备 作为 引导 设备 ， 对 于 一 台 配 有 少 于 512GB 内 存 的 主机 而 言 ，2.2GB 的 
SD/USB 设 备 空间 为 核心 转 储 而 保留 。 如 果 主 机 的 内 存 容量 大 于 512GB，SD 或 USB 设 备 上 可 能 就 没有 足够 的 空间 来 捕获 核心 转 储 
文件 了 ， 操 作 将 会 失败 ， 故 障 分 析 所 用 的 数据 会 丢失 。 


vSphere Dump Collector 也 可 以 用 来 将 核心 转 储 发 送 到 外 部 ， 在 一 个 集中 的 位 置 存 放 。 在 使 用 网 络 收集 器 的 设计 
中 ，PSoD 事 件 发 生 时 ， 核 心 转 储 将 通过 UDP 连接 发 送 。 但 是 使 用 核心 转 储 收集 器 时 必须 考虑 到 UDP 传输 机 制 是 不 可 靠 的 。 一 旦 
传输 失败 ， 核 心 转 储 文件 的 收集 也 就 失败 了 ，VMware 技 术 支 持 工程 师 将 不 能 通过 这 些 数据 来 分 析 故 障 的 根源 。 


Virtual SAN 跟 踪 文件 的 另 一 个 设计 选项 是 将 它 重 定向 到 可 用 的 NFS 数 据 存储 ， 将 它 作 为 集中 维护 的 位 置 来 使 用 。 使 用 esxcli 
vsan trace set 命 令 来 重 定向 Virtual SAN 跟 踪 文 件 ， 例 如 : 


vsantraces -> /vmfs/volumes/NFS-Extent/ 


3. 引 导 设 备 


按照 设计 ，Virtual SAN 会 使 用 主机 本 地 插 槽 上 的 人 存储 设备 。 因 此 我 们 要 尽 可 能 地 将 主机 上 的 硬盘 插 槽 留 给 虚拟 机 人 存储。 为 
启用 了 Virtual SAN 功 能 的 集群 选择 引导 设备 是 一 个 关键 性 设计 。 


Virtual SAN 支 持 从 可 移动 闪存 设备 引导 ， 例 如 USB 和 SD 卡 ， 也 可 以 是 传统 的 机 械 盘 或 内 存盘 ， 还 可 以 从 SAN 网 络 引 导 。 从 
vSphere 6 开始 ， 还 支持 SATADOM 设 备 。 


当 使 用 可 移动 内 存 设备 作为 引导 介质 时 ， 必 须 认 真 考虑 设备 的 质量 。 设 计 必 须 指明 用 于 安装 ESXi 的 可 移动 设备 必须 是 工业 级 
宽 温 域 的 SD 卡 或 USB 设 备 。 如 果 硬件 支 持 要 配置 为 RAID 1。 介 质 的 质量 很 重要 ， 因 为 市 面 上 有 很 多 低 质 量 的 消费 级 产品 。 尽 管 
设备 的 最 小 容量 可 以 是 4GB， 我 们 还 是 建议 为 那些 业务 关键 环境 选择 8GB、 工 业 级 、 宽 温 域 的 USB/SD 设 备 。 


如 前 所 述 ，Virtual SAN 跟 踪 文 件 可 以 存储 在 本 地 引导 硬盘 的 临时 文件 分 区 ， 或 者 被 手工 配置 到 VMFS 格 式 的 LUN (通常 称 


为 维护 LUN) 的 临时 文件 分 区 。 如 果 没 有 永久 存储 可 用 ， 跟 踪 日 志 将 只 保存 在 RAM 盘 里 ， 主 机 故障 重启 时 可 能 不 会 被 保留 。 
4.SATADOM 引 导 设 备 


vSphere 6 的 发 布 支持 将 SATADOM 作 为 新 的 引导 设备 使 用 。SATADOM ， 即 模块 化 的 串 行 ATA 盘 ， 与 内 存 SSD 设 备 非常 相 
似 ， 看 起 来 像 一 个 U 盘 ， 直 接连 接 到 主机 母 板 上 的 SATA 连 接 器 。 但 SATADOM 的 数据 传输 率 比 USB 要 高 得 多 ， 这 种 类 型 的 存储 
设备 也 更 能 承受 大 量 的 写 操作 。 


当 你 用 一 个 SATADOM 设 备 引 导 vSphere 主 机 时 ， 要 确保 选择 使 用 SLC 芯片 的 设备 ， 这 类 设备 可 以 提供 更 好 的 耐久 性 。 像 
Virtual SAN 跟 踪 文 件 这 样 大量 写 入 的 应 用 也 不 会 把 设备 写 坏 。 这 是 针对 特定 引导 设备 的 特殊 需求 ， 如 果 用 SATADOM 设 
备 ，Virtual SAN 跟 踪 文 件 直接 写 到 SATADOM 设 备 ， 明 显 增加 写 I/O 的 操作 级 别 。 


4.3.3 Virtual SAN 硬 件 需求 
要 确保 设计 能 够 得 到 支持 ， 取 得 成 功 ， 全 闪存 设备 和 存储 控制 器 必须 选择 那些 在 Virtual SAN 兼 容 性 指南 中 列 出 的 。 主要 的 
硬件 设计 考量 如 下 : 


" 集群 中 至 少 配 置 3 台 主 机 。 所 有 3 台 主 机 都 要 为 数据 存储 贡献 空间 。vSphere 6 版 本 每 个 集群 的 主机 数量 最 多 是 64。 之 前 的 
Virtual SAN 版 本 和 延伸 集群 配置 支持 更 少 的 主机 。 


强烈 建议 Virtual SAN 集 群 中 所 有 的 主机 都 采用 相同 或 相似 的 硬件 配置 。 
. 所 有 设计 中 都 要 采用 适当 队列 深度 和 被 支持 的 存储 控制 器 。 


.Virtual SAN 网 络 需 要 1GB 以 太 网 或 10GB 以 太 网 ， 生 产 环境 中 强烈 建议 采用 10GB 以 太 网 络 ， 对 于 全 闪存 配置 来 说 ，10GB 以 
太 网 是 强制 的 。 


1.Virtual SAN 主 机 内 存 需 求 


作为 Virtual SAN 集 群 的 一 部 分 ，vSphere 主 机 的 内 存 需求 由 磁盘 组 的 数量 和 虚拟 化 层 所 管理 的 磁盘 数量 决定 。 要 支持 最 大 5 
个 磁盘 组 ， 每 台 主机 最 少 需要 32GB 内 存 。 


主机 内 存 大 小 是 完整 vSphere 设 计 的 一 部 分 ， 必 须 考 虑 多 种 因素 。 要 充分 利用 计算 节点 的 处 理 能 力 ， 主 机 系统 必须 配置 足够 
的 内 存 。 最 近 几 年 ， 内 存 成 本 在 降低 ， 硬 件 的 内 存 密 度 在 增加 ， 有 了 新 的 扩展 内 存 能 力 。 在 写本 书 的 时 候 ， 一 台 半 尺寸 刀片 通常 
都 可 以 配置 768GB 内 存 。 用 于 数据 中 心 的 机 架 服务 器 通常 可 以 配置 超过 1TB 的 内 存 。 设 计 Virtual SAN 集 群 时 ， 要 考虑 主机 上 的 
最 大 可 配置 存储 容量 ， 综 合 考虑 各 种 因素 找 出 最 佳 值 ， 在 CPU、 内 存 和 存储 之 间 找 出 最 优 和 平衡 的 配置 。 


为 集群 中 每 一 台 主 机 配置 相同 数量 的 内 存 是 构建 一 个 健壮 的 技术 平台 的 最 佳 实践 。 如 果 可 用 主机 的 内 存 数 量 存 在 差异 ， 可 以 
考虑 采用 多 个 Virtual SAN 集 群 的 解决 方案 。 


为 一 个 Virtual SAN 集 群 计算 内 存 需求 时 需要 考虑 的 其 他 因素 还 包括 : 
. 当主 机 配置 的 内 存 少 于 32GB 时 ，Virtual SAN 会 降低 它 的 内 存 消耗 。 


. 当 集 群 节点 大 于 32 的 时 候 ，Virtual SAN 会 增加 它 的 内 存 消耗 。 


与 混合 配置 相 比 ， 全 闪存 磁盘 组 会 占用 更 多 的 内 存 资源 。 


2. 主 机 CPU 开 销 


VMware 没 有 为 Virtual SAN 指 出 特定 的 CPU 需 求 。 你 只 需要 知道 ，Virtual SAN 会 带 来 少量 的 CPU 开 销 ， 通 常 不 会 超过 
10%。 这 个 CPU 开 销 会 影响 主机 上 的 可 用 资源 ， 因 此 在 你 为 整个 环境 计算 CPU 资 源 需求 时 要 考虑 这 一 部 分 开销 。 要 确保 虚拟 机 
的 性 能 不 会 因为 缺少 资源 或 超 量 使 用 而 受到 影响 。 


在 高 度 整 合 的 环境 中 ， 更 需要 特别 关注 对 可 用 资源 的 影响 ， 如 云 服 务 提供 商 的 平台 ， 或 者 那些 可 能 包含 对 CPU 资源 比较 敏 
感 的 业务 关键 应 用 的 特定 应 用 场景 。 


3. 存 储 控制 器 


在 你 设计 Virtual SAN 环 境 时 ， 存 储 控制 器 是 一 个 关键 的 硬件 组 件 。 硬 件 的 选择 和 配置 对 解决 方案 的 整体 性 能 会 产生 较 大 的 
影响 。 要 想 设 计 成 功 ， 必 须 认 真 考虑 。 


Virtual SAN 支 持 SAS、SATA 和 SCSI 适 配器 ， 既 可 以 是 直通 模式 ， 也 可 以 是 RAID 0 模式 。Virtual SAN 只 支持 这 两 种 模式 ， 
大 多 数 存 储 适配器 设备 也 都 支持 。Virtual SAN 的 性 能 高 度 依赖 于 |/O 控 制 器 的 选择 。 下 面 是 一 些 在 评估 1/O 控 制 器 硬件 时 应 该 考 
虑 的 因素 : 


1) 设备 支持 的 模式 。 控 制 器 必须 支持 RAID 0 或 (和 ) 直通 模式 。 在 RAID 0 模式 ， 要 注意 检查 SSD 的 性 能 。 选 择 RAID 0 模 
式 也 意味 着 带 来 了 维护 开销 ， 可 能 影响 扩展 性 和 性 能 。 添 加 磁盘 到 磁盘 组 时 可 能 需要 以 手工 的 方式 操作 存储 控制 器 界面 。 因 为 这 
个 原因 ， 直 通 模 式 通 常 被 认为 是 最 优 的 选择 。 


2) 存储 控制 器 接口 速度 。 如 果 使 用 PCI-e 接 口 的 设备 ， 请 与 设备 厂商 确认 其 性 能 。 
3) 控制 器 支持 的 磁盘 数量 。 与 控制 器 厂商 确认 该 类 型 的 控制 器 能 够 支持 的 磁盘 数量 。 
4) 要 使 用 的 控制 器 数量 。 每 台 主 机 上 配置 多 个 控制 器 可 以 减少 故障 域 并 改善 性 能 ， 但 同时 也 会 增加 硬件 设备 的 预算 。 


5) 控制 器 队列 深度 。 控 制 器 队列 深度 会 对 性 能 产生 较 大 影响 。 应 该 选择 队列 深度 为 256 或 更 高 的 产品 。 这 是 影响 Virtual 
SAN 集 群 性 能 的 关键 因素 ， 更 高 的 控制 器 队列 深度 可 以 改善 总 体 性 能 。 


无 论 做 出 了 什么 样 的 硬件 和 配置 选择 ，Virtual SAN 需 要 完全 控制 磁盘 。 利 用 控制 器 的 直通 模式 ，vSphere 虚 拟 化 层 可 以 直 
接 访问 底层 设备 ， 使 得 Virtual SAN 能 够 通过 存储 控制 器 完全 控制 主机 的 内 存 和 机 械 盘 。 对 于 大 多 数 存 储 I/O 设 备 来 说 ， 选 择 直 
通 模式 或 RAID 0 模式 对 性 能 的 影响 不 大 。 但 是 使 用 RAID 0 模式 ， 存 储 控制 器 的 读 写 缓存 应 该 关闭 ， 以 确保 它 不 会 与 Virtual SAN 
控制 的 内 存盘 缓冲 相 冲 突 。 此 外 ， 应 该 启用 直通 MO。 当 我 们 评估 硬件 组 件 时 应 该 检查 这 些 硬件 的 配置 ， 人 存储 控制 器 缓存 在 一 些 
存储 控制 器 设备 上 是 一 个 可 配置 的 值 ， 但 并 不 是 所 有 的 存储 控制 器 都 是 这 样 。 


在 存储 控制 器 上 使 用 RAID 0 时 还 需要 考虑 这 会 增加 运 维 开销 。 我 们 前 面 强调 过 ，RAID 0 模式 在 向 Virtual SAN 磁 盘 组 中 添加 
磁盘 或 者 从 磁盘 组 中 移 除 磁盘 时 都 需要 手工 操作 存储 控制 器 软件 ， 通 常 是 系统 BIOs 中 断 的 一 部 分 ， 或 者 通过 厂商 特定 的 工具 来 
控制 存储 控制 器 的 固件 。 在 这 种 模式 下 ， 每 个 驱动 器 都 必须 被 配置 为 一 个 单独 的 RAID 0 阵列 ， 以 便 将 每 一 个 驱动 器 向 Virtual 
SAN 独 立 呈 现 ， 而 不 是 作为 一 个 磁盘 阵列 来 管理 。 使 用 RAID 0 模式 可 以 明显 地 增加 运 维 开 销 ， 如 果 配 置 改变 不 正确 ，Virtual 
SAN 的 性 能 和 稳定 性 一 定 会 受到 影响 。 此 外 ， 如 果 使 用 RAID 0 模式 ，Virtual SAN 就 不 能 管理 热 插 拔 磁 盘 ， 它 们 只 能 由 存储 控制 
器 固件 来 管理 。 


下 面 是 你 在 评估 存储 控制 器 是 否 适 合 于 环境 时 要 考虑 的 关键 因素 : 


* 可 用 磁盘 模式 。 对 于 所 有 设计 来 说 ， 直 通 模式 都 是 最 优 的 。 
* 闪存 设备 选 型 时 ， 要 确保 它 被 支持 

* 机 械 磁盘 选 型 时 ， 要 确保 它 被 支持 。 

. 控制 器 的 队列 长 度 。 最 小 支持 的 队列 长 度 是 256。 


: 主机 上 所 配置 的 磁 瘟 组 以 及 磁盘 的 数量 。 


4. 存 储 设备 


毋庸 置疑 ， 人 存储 设备 是 Virtual SAN 环 境 的 核心 组 件 。 如 前 所 述 ，Virtual SAN 集 群 同 时 使 用 机 械 磁 盘 和 闪存 盘 ， 可 以 有 各 种 
组 合 ， 通 过 读 写 缓存 来 增强 性 能 和 耐久 性 。 在 全 闪存 配置 中 ， 闪 存盘 也 用 来 提供 容量 . 


要 想 让 Virtual SAN 能 够 正常 运行 ， 选 择 和 配置 这 些 磁 盘存 储 组 件 是 非常 关键 的 。 这 一 部 分 将 深度 讨论 如 何 利用 这 些 设 备 的 
功能 特性 来 解决 性 能 、 耐 久 性 和 容量 等 问题 ， 以 帮助 你 理解 Virtual SAN 的 各 种 可 选 配置 。 


固态 盘 


对 于 性 能 敏感 应 用 ， 固 态 盘 是 现代 计算 机 中 用 于 存储 和 访问 数据 的 流行 存储 介质 。 闪 存 设备 支持 对 随机 数据 位 置 的 快速 访 
问 ， 也 就 意味 着 数据 可 以 被 大 量 并 发 用 户 和 应 用 进行 读 写 操作 。 机 械 盘 通常 提供 比 闪 存盘 更 大 的 容量 。Virtual SAN 可 以 使 用 两 
种 设备 ， 以 在 性 能 、 写 耐久 性 和 容量 之 间 灵 活 平 衡 。 


闪存 盘 ， 通 常 被 称 为 SSD， 采 用 NAND 模 块 来 存储 数据 ， 比 传统 的 机 械 盘 有 更 好 的 性 能 和 更 低 的 电力 消耗 。 闪 存盘 不 需要 旋 
转 介质 ， 不 需要 改变 机 械 位 置 ， 响 应 速度 几乎 是 瞬时 的 。 另 外 ， 企 业 级 闪存 设备 通常 可 以 提供 30 倍 的 MO 吞吐 率 ， 并 且 在 工作 负 
载 增加 时 响应 速度 不 变 。 也 就 是 说 ， 单 个 闪存 设备 能 够 处 理 的 IOPSs 数 量 相当 于 30 块 传统 的 15000 转 机 械 盘 。 与 磁盘 不 同 ， 要 在 
NAND 攻 片上 写 入 新 数据 ， 必 须 先 删除 原来 的 数据 ， 这 被 称 为 擦 写 循 环 (Program Erase Cycle，PEC) 。 


另 一 个 驱动 器 性 能 的 天 键 指标 是 队列 。 任 何 驱动 器 ， 不 管 是 内 存盘 还 是 机 械 盘 ， 一 次 只 能 执行 一 个 操作 。 用 户 和 系统 的 MO 
请 求 以 电波 的 速度 发 送 到 驱动 器 ， 如 果 有 超过 一 个 请 求 发 到 了 驱动 器 ， 则 只 能 有 一 个 被 处 理 ， 其 他 的 必须 等 待 。 智 能 驱动 器 算法 
优化 请 求 处 理 的 顺序 ， 除 了 正在 处 理 的 请 求 ， 其 他 的 都 排 入 队列 ， 响 应 时 间 随 着 队列 请 求 的 增加 而 增加 。 闪 存 驱动 器 可 以 最 小 化 
队列 对 性 能 造成 的 影响 ， 因 为 你 能 够 越 快 地 响应 MO 请 求 ， 那 么 队列 也 就 会 越 短 。 


固态 盘 可 以 使 用 SATA、SAS 或 PCle 接 口 。 这 些 常 见 的 接口 提供 不 同 的 性 能 特性 ， 以 及 最 大 吞吐 量 ， 如 表 4-6 所 示 。 


表 4-6 固态 瘟 支 持 的 接口 


接口 知 吐 量 
3Gbys 
SAS 驱动 需 6Gb/s 
12Gb/s 
1.5Gb/s 
SATA 驱动 器 ” 3Gb/s 
6Gb/s 


在 吐 率 决 定 于 PCIe 的 厂商 ， 以 及 设备 的 年 代 

Gen vl.x: 250MB/s (2.5GT/s) 

Gen v2.x: SO0OMB/s (5GT/s) 

Gen v3.x: 985MB/s (8GT/s) 

Gen v4.x 1969MB/s (16GT/s) 

例如 ，8 通道 的 第 二 代 PCIe 可 以 提供 最 多 每 通道 4Gb/s， 
共计 32Gb/s 的 吞吐 能 力 


PCIe 驱动 需 





(DSATA 3Gb/s 或 6Gb/s 驱 动 器 可 以 连接 到 SAS 接 口 ， 但 SAS 驱 动 器 不 能 连接 到 SATA 接 口 。 


通常 来 说 ， 因 为 接口 吞吐 率 的 区 别 ，PCle SSD 设 备 的 性 能 要 比 SAS 和 SATA SSD 高 很 多 ， 但 接口 性 能 只 是 选择 SSD 设 备 的 因 
素 之 一 ; I/O 性 能 也 非常 重要 。 


Virtual SAN 配 置 中 使 用 的 内 存 设备 非常 关键， 对 性 能 的 影响 非常 大 。 在 Virtual SAN 混 合 配置 中 ， 闪 存盘 的 空间 被 分 割 成 两 
个 部 分 ， 大 约 30% 的 空间 用 作 写 缓冲 ， 大 约 70% 的 空间 用 作 读 缓存 。 这 个 比例 是 一 个 可 配置 参数 ， 但 对 于 大 多 数 负载 来 说 ， 没 必 
要 修改 它 ， 除 非 VMware 的 技术 支持 人 员 建 议 你 修改 。 对 于 MO 密集 的 虚拟 化 负载 来 阅 ， 闪 存 设 备 的 耐久 性 、 每 秒 的 /O 操 作 数 
量 是 影响 性 能 的 关键 因素 。 


与 混合 模式 不 同 ， 在 全 闪存 配 置 中 ，100% 的 空间 都 用 作 写 缓冲 ， 因 为 在 全 闪存 的 磁盘 组 中 ， 读 性 能 不 存在 问题 。 这 个 参数 
是 固定 的 ，vSphere 的 存储 管理 员 不 能 进行 修改 。 


除了 性 能 ， 耐 久 性 也 是 选择 闪存 设备 的 关键 指标 。 闪 人 存 设 备 的 耐久 性 基于 标准 的 写 操作 进行 度量 ， 上 IT 业界 主要 用 它 来 衡量 设 
备 的 可 靠 性 。VMware 建 议 按照 客户 的 需求 来 选择 具有 合适 耐久 性 级 别 的 设备 。 
VMware 基 于 写 性 能 将 SSD 设 备 归 类 为 5 个 级 别 。 选 择 哪个 级 别 的 SSD 将 极 大 地 影响 Virtual SAN 集 群 的 性 能 。 表 4-7 列 出 了 
各 种 SSD 级 别 ， 基 于 工作 负载 和 工作 模式 来 判断 需求 。 要 保证 全 闪存 Virtual SAN 的 性 能 ， 选 择 高 性 能 类 别 的 SSD。 
表 4-7 列 出 了 指定 的 SSD 类 别 ， 你 可 以 在 VMware 硬件 兼容 性 指南 中 找到 它们 。 
表 4-7 ”SSD 耐久 性 级 别 和 Virtual SAN 层 级 类 别 


类 别 每 秒 写 操作 Virtual SAN 模式 / 层级 


Class A 2500 一 5000 全 闪存 / 仅 容 量 层 

Class B 5000 一 10 000 全 闪存 / 仅 容 量 层 + 混合 模式 缓存 层 
Class C 10 000 一 20 000 全 闪存 /缓存 层 (中 等 负载 ) 

Class D 20 000 一 30 000 全 闪存 /缓存 层 (高 负载 ) 


性 能 级 设备 


30 000~100 000 全 闪存 /缓存 层 ( 写 密集 负载 ) 


耐久 级 设备 gg 
EE 100 000+ 全 闪存 / 缓存 层 (超级 写 密集 负载 ) 





写 性 能 是 VMware 分 类 SSD 设 备 的 主要 考量 。 在 基于 闪存 的 存储 中 ， 写 通常 不 是 瓶 贷 ， 因 此 更 好 的 总 体 性 能 指标 可 以 是 随机 
或 顺序 读 。 其 他 影响 SSD 性 能 ， 进 而 影响 负载 性 能 的 因素 还 有 设备 的 队列 深度 和 最 大 驱动 器 延 时 。 此 外 ， 闪 存 存 储 设备 的 寿命 都 


是 有 限 的 ， 这 个 耐久 性 由 设备 能 够 承受 的 PEC 数 量 决定 。 每 一 次 数据 写 入 设备 单元 时 ， 设 备 必须 对 该 单元 执行 一 个 PEC 操 作 。 


SSD 制 造 商 将 磁盘 的 NAND 分 类 为 单 层 单元 (SLC) 、 多 层 单 元 (MLC) 或 企业 级 多 层 单 元 (eMLC) ， 每 一 种 类 型 都 使 用 
不 同 的 存储 机 制 ， 既 影响 性 能 又 影响 耐久 性 。 


一 个 SLC 设备 在 每 一 个 单元 里 人 存储 一 位 数据 (0 或 1) ， 而 MLC 设 备 的 NAND 闪 存 模块 每 个 单元 使 用 多 层 ， 通 常 是 4 位 ， 能 存 
储 更 多 的 内 容 。SLC 闪 存 提供 最 高 级 别 的 性 能 ， 通 常 成 本 也 最 高 。SLC 也 有 最 高 的 耐久 性 ， 每 个 单元 大 约 100000 次 PEC。 


MLC 是 低档 设备 ， 价 格 比 SLC 设 备 要 便宜 。 但 是 它 的 NAND 模 块 的 生命 周期 更 短 。MLC 设 备 能 提供 的 耐久 性 是 每 个 单元 
10000 ~ 30000PEC。 因 此 ，MLC 不 适用 于 会 产生 大 量 写 操 作 的 应 用 ， 也 不 适合 在 全 闪存 配置 中 作为 耐久 型 内 存 设备 来 使 用 。 此 
外 ，MLC 设 备 与 SLC 设备 使 用 相同 数量 的 晶体 管 ， 因 此 也 增加 了 每 一 个 NAND 模 块 出 错 的 风险 。 


eMLC NAND 设 备 在 成 本 和 寿命 之 间 求 得 平衡 ， 是 一 个 介 于 SLC 和 MLC 之 间 的 选项 。eMLC 通 常 在 每 个 单元 中 存储 2 位 数 
据 。 这 种 介质 采用 比 消费 级 MLC 有 更 高 PEC 的 模块 ， 有 更 高 的 耐久 性 ， 每 个 单元 支持 20000 ~ 30000 的 PEC， 因 此 能 够 满足 企业 
应 用 负载 更 高 的 耐久 性 需求 。SSD 厂 商会 在 设备 内 部 使 用 不 同 技术 来 改进 可 靠 性 ， 当 然 这 并 不 意味 着 SLC 设备 比 eMLC 更 可 
靠 ，SSD 广 商会 在 NAND 模 块 的 内 部 通过 软件 特性 来 增强 它们 的 寿命 。 


其 他 技术 ， 像 三 层 单元 (TLC) ， 提 供 了 更 高 密度 ， 但 是 耐久 性 只 有 1000 ~ 5000PEC， 它 们 只 适用 于 消费 级 电子 产品 。 此 
外 ，3D NAND TLC 是 一 种 新 型 的 内 存 存储 设备 ， 可 提供 与 MLC 设 备 相 似 的 性 能 和 耐久 性 ， 且 成 本 更 低 ， 但 目前 在 市 面 上 还 不 多 
见 。 


鉴于 不 同 设备 类 型 之 间 存 在 性 能 和 耐久 性 的 差异 ，VMware 不 在 Virtual SAN 硬 件 兼容 性 列表 (HCL) 中 比较 SLC、MLC 和 
eMLC 类 型 。 从 Virtual SAN 设 计 的 角度 看 ， 主 要 考虑 闪存 设备 是 否 能 够 满足 最 小 的 性 能 和 可 靠 性 要 求 ， 如 前 面 表 4.7 中 列 出 的 那 
样 。 要 考虑 这 些 指标 ， 无 论 厂 商 采用 什么 样 的 硬件 架构 ， 都 会 依靠 NAND 模 块 类 型 和 控制 器 特性 来 提升 耐久 性 ， 以 达到 设备 所 
声明 的 最 大 值 。 


如 表 4-7 所 示 ， 在 全 闪存 配置 中 ， 容 量 层 内 存 设备 用 于 支持 永久 存储 和 响应 读 请 求 ， 可 以 使 用 更 低 成 本 的 性 能 级 固态 盘 ， 而 
是 高 成 本 的 耐久 级 设备 。 理 解 SSD 设 备 耐久 级 别 与 全 闪存 配置 下 Virtual SAN 性 能 之 间 的 相互 关系 非常 重要 。 大 多 数 情 况 下 ， 
最 贵 的 设备 也 是 拥有 最 高 的 性 能 的 硬件 ， 也 能 为 Virtual SAN 提 供 更 好 的 性 能 。 成 本 通常 是 大 多 数 T 组 织 考虑 的 因素 。 取 决 于 特 

定 的 应 用 场景 和 工作 负载 ， 低 耐久 级 别 的 设备 对 客户 可 能 更 有 吸引 力 ， 即 使 总 体 性 能 受到 一 些 影响 。 


SSD 厂 商用 来 衡量 设备 性 能 的 主要 度量 方式 是 写 /O， 但 在 各 厂商 之 间 对 耐久 性 的 衡量 却 没 有 标准 的 定义 。 大 多 数 SSD 硬 件 
制造 商 使 用 驱动 器 每 天 写 入 次 数 (Drive Writes per Day，DWPD) 或 可 写 PB 数 (Petabytes Written，PBW) 来 表示 。1 个 
DWPD 相 当 于 填 满 驱动 器 的 全 部 容量 然后 再 擦 除 整 个 驱动 器 ， 也 就 是 对 SSD 上 的 每 一 个 NAND 单 元 执行 一 次 擦 写 循环 (PEC) 。 


VMware 的 Virtual SAN 硬 件 兼容 性 列表 需要 下 述 的 耐久 性 指标 ， 设 备 要 有 超过 5 年 的 寿命 。 可 以 通过 以 下 方式 达到 : 


.对 于 耐久 型 SAS 和 SATA SSD 设 备 ， 了 驱动 器 必须 支持 至 少 10 个 完整 的 DWPD， 或 支持 以 8KB 的 传输 单位 在 每 一 个 NAND 模 块 
上 进行 3.5PB 的 随机 写 ， 或 者 以 4KB 的 传输 单位 在 每 一 个 NAND 模 块 上 进行 2.5PB 的 随机 写 。 


. 对 于 耐久 型 PCIe SSD， 设 备 必须 支持 至 少 10 个 完整 的 DWPD， 或 支持 以 8KB 的 传输 单位 在 每 一 个 NAND 模 块 上 进行 3.5PB 
的 随机 写 ， 或 者 以 KB 的 传输 单位 在 每 一 个 NAND 模 块 上 进行 2.5PB 的 随机 写 。 


如 果 没有 来 自 客户 的 正式 要 求 ， 建 议 在 全 闪存 Virtual SAN 的 设计 中 ， 写 缓冲 从 C 级 耐久 性 设备 开始 ，B 级 SSD 可 以 用 来 支持 
永久 性 存储 和 读 I/O。 这 样 可 以 求 得 一 个 平衡 ， 在 实现 Virtual SAN 数 据 存储 的 高 性 能 级 别 的 同时 又 不 会 明显 增加 构建 这 一 环境 
的 采购 成 本 。 


基于 PCle 的 闪存 设备 


基于 PCle 的 闪存 设备 是 最 近 经 常 使 用 的 固态 介质 。 数 据 中 心里 的 传统 SSD 设 备 使 用 的 是 SAS 存 储 接口 ， 这 种 接口 设计 主要 用 
来 支持 机 械 盘 。 新 出 产 的 闪存 驱动 器 多 使 用 高 速 的 PCle 总 线 接口 。 


如 图 4-15 所 示 ， 设 计 一 个 Virtual SAN 解 决 方案 时 ， 要 确保 你 使 用 的 闪存 设 备 满足 下 述 标准 : 


D OO 
olleoo <HDD ,<Hpp ,Hop ， 


机 械 容 量 设备 机械 容量 设备 机 械 容量 设备 机 械 容量 设备 
启用 了 Virtual SAN 的 集群 ( Hybrid ) 





图 4-15 “采用 基于 PCTIe 闪 存 设备 的 Virtual SAN 配 置 
: 确保 闪存 设备 〈PCIe 或 SAS SSD) 的 型 号 包含 在 Virtual SAN 的 兼容 性 列表 之 中 。 
PCIe 设 备 通 常会 比 SAS 固 态 闪 存 设备 成 本 高 ， 但 它 的 容量 一 般 也 更 大 ， 性 能 也 会 更 好 。 
“ 确保 全 闪存 配置 中 的 写 缓冲 闪存 设备 和 混合 配置 中 的 缓冲 设备 的 写 耐久 性 可 以 满足 需求 。 
机 械 磁盘 驱动 器 


机 械 磁 盘 驱 动 器 是 存储 信息 的 传统 装置 。 不 同 于 固态 内 存 介质 ， 它 的 数据 记录 在 盘面 的 轨道 上 ， 是 一 些 以 主轴 为 圆心 的 同心 
圆 ， 如 图 4-16 所 示 。 轨 道 是 编号 的 ， 从 圆 盘 的 最 外 缘 开 始 ， 以 0 为 起 始 进行 编号 。 每 英寸 的 轨道 数 (轨道 密度 ) 表示 圆 盘 上 的 轨 
道 之 间 有 多 紧密 。 





图 4-16 ”机 械 磁 盘 的 结构 原理 


每 个 轨道 又 被 分 割 为 更 小 的 单位 ， 叫 做 扇 区 ， 扇 区 是 磁盘 上 的 最 小 人 存储 单元 。 盘 面 上 的 轨道 和 扇 区 结构 由 设备 制造 商定 义 ， 
通过 低级 格式 化 的 方式 写 入。 每 个 轨道 上 的 扇 区 数目 是 可 变 的 ， 决 定 于 盘面 的 直径 和 记录 密度 。 


对 于 机 械 磁盘 来 说 ， 有 3 个 组 件 会 影响 磁盘 /O 操 作 所 需要 的 总 时 间 : 


* 寻 道 时 间 ， 或 定位 延 时 ， 是 定位 读 写 磁头 到 相应 柱 面 所 需要 的 时 间 。 这 决定 于 读 / 写 磁头 的 移动 速度 ， 但 平均 来 说 ， 是 4 一 


.转动 延 时 决定 于 驱动 器 的 转动 速度 ， 一 个 15000RPM 的 设备 转 完 一 圈 约 需 4 毫秒 ， 因 此 平均 耗 时 是 这 个 时 间 的 一 半 ， 大 约 2 


* 传输 速度 是 用 来 传送 数据 的 时 间 ， 决 定 于 转动 速度 和 链 路 协议 。 相 对 于 定位 和 转动 延 时 ， 传 输 速 度 是 可 以 忽略 的 。 


在 Virtual SAN 环 境 中 ， 机 械 盘 应 用 在 混合 配置 中 。 用 于 永久 数据 人 存储 和 脏 读 (Dirty Read) ， 也 称 为 读 未 命中 (Read 
Miss) ， 即 要 读 取 的 数据 块 在 读 缓存 中 没有 找到 ， 因 此 需要 从 机 械 盘 中 读 取 。 机 械 盘 也 决定 了 虚拟 机 可 用 的 条 带宽 度 ， 通 过 存 
储 策略 来 进行 配置 。 例 如 ， 在 策略 中 配置 了 特定 的 条 带宽 度 ， 你 必须 确保 需要 的 条 带宽 度 对 主机 上 的 所 有 磁盘 都 可 用 ， 确 保 集群 
可 以 遵循 这 一 策略 。 此 外 ， 如 果 虚 拟 机 配置 了 较 高 的 FTT 值 ， 为 了 满足 策略 的 需求 ， 你 可 能 需要 更 多 的 机 械 盘 以 确保 每 个 组 件 都 
可 以 被 复制 。 


机 械 盘 通常 是 Virtual SAN 混 合 配置 中 最 慢 的 组 件 ，Virtual SAN 的 智能 算法 会 把 读 取 最 频繁 的 数据 放 入 读 缓 存 ， 还 可 以 通过 
并 发 读 取 来 提高 速度 ， 同 时 通过 多 个 组 件 读 取 的 虚拟 机 数据 。 另 外 ， 所 有 虚拟 机 的 写 操 作 都 由 耐久 型 闪存 层 来 处 理 ， 在 采用 正确 
配置 的 混合 环境 中 ， 机 械 盘 不 会 成 为 性 能 瓶颈 。 


VMware 在 Virtual SAN 解 决 方案 中 支持 下 面 3 种 类 型 的 机 械 盘 : 
. 串 行 连接 SCSI (SAS) 

. 近 线 串 行 连接 SCSI (NL-SAS) 

“ 串 行 高 级 技术 连接 器 (SATA) 


NL-SAS 可 以 当 作 带 有 SAS 接 口 的 企业 级 SATA 盘 。 对 于 大 多 数 工作 负载 来 说 ， 通 过 SAS 和 NL-SAS 设 备 可 以 得 到 最 好 的 结 
果 。 一 般 不 会 使 用 SATA 盘 ， 除 非 负 载 的 服务 级 别 需求 主要 是 容量 而 非 性 能 。 


另外 ， 你 所 选择 的 机 械 磁盘 的 转速 也 要 满足 目标 负载 的 指标 要 求 。 机 械 磁盘 的 速度 和 用 例 特 性 如 表 4-8 所 示 。 


表 4-8 Virtual SAN 机 械 磁 盘 特 性 和 转速 


磁盘 类 型 3 每 分 钟 转 数 设备 的 平均 IOPS 


SAS 更 高 的 性 能 175 





VMware 建议 在 混合 Virtual SAN 方 案 中 使 用 基于 SAS 的 机 械 磁盘 ， 能 够 最 好 地 满足 工作 负载 的 需求 。 如 果 不 需要 较 高 的 性 
能 ， 可 以 大 量 采用 低 成 本 的 机 械 磁盘 以 允许 采用 较 高 的 FTT 配 置 。 如 果 没 有 明确 的 客户 需求 ， 考 虑 选择 10000RPM 的 磁盘 ， 以 在 
容量 、 成 本 和 可 用 性 方面 求 得 平衡 。 


这 些 设计 决策 的 意义 可 以 通过 一 些 简单 的 计算 来 证 明 ， 请 参考 前 面 表格 中 提供 的 度量 值 。 例 如 ， 如 果 一 个 客户 的 Virtual 
SAN 混 合 配置 需要 20TB 的 容量 ， 可 以 采用 不 同 的 磁盘 类 型 来 实现 ， 下 面 举 两 个 例子 : 
. 方案 1: 20TB/2TB NL-SAS 二 10NL-SAS 磁 盘 ( 跨 磁盘 组 ) 一 750IOPS 


方案 2: 20TB/1TB 10k SAS 二 20SAS 磁 衣 ( 跨 磁盘 组 ) 二 3000IOPS 


你 可 以 清楚 地 看 到 这 两 种 方案 在 IOPS 方 面 存在 的 巨大 差异 。 即 使 Virtual SAN 主 要 利用 闪存 设备 来 优化 读 写 性 能 ， 这 些 计算 
仍然 重要 。 主 要 原因 是 在 混合 模式 中 ， 容 量 层 磁 盘 的 MO 性 能 会 影响 倒 盘 操作 和 缓存 未 命中 情况 下 的 读 延 时 ， 这 时 必须 从 机 械 盘 
中 提取 数据 。 


值得 一 提 的 是 ，VMware 建 议 用 户 不 要 混合 使 用 不 同 转速 的 机 械 磁 盘 ， 以 便 在 一 个 环境 中 实现 混合 的 性 能 特性 。 这 种 方式 会 
导致 性 能 的 不 可 预测 性 和 不 一 致 性 ， 因 为 分 布 式 的 Virtual SAN 数 据 存储 只 有 一 个 数据 卷 。 建 议 为 每 个 混合 模式 集群 选择 一 种 类 
型 的 机 械 磁 盘 。 要 满足 多 个 工作 负载 类 型 的 不 同性 能 需求 ， 应 该 采用 不 同性 能 等 级 的 Virtual SAN 集 群 ， 以 支持 各 种 不 同 的 服务 
级 别 ， 如 图 4-17 所 示 。 


5.Virtual SAN 就 绪 节 点 


Virtual SAN 就 绪 节点 是 由 服务 器 硬件 厂商 销售 的 开 箱 即 用 且 一 切 就 绪 的 硬件 解决 方案 。 就 绪 节 点 已 经 完成 了 预 配 置 ， 采 用 
经 过 认证 的 硬件 来 搭建 ， 针 对 Virtual SAN 超 融合 平台 进行 了 优化 。 


Virtual SAN 就 绪 节点 包括 来 自 硬件 厂商 的 一 组 兼容 的 硬件 组 件 ， 如 存储 控制 器 、 固 态 闪 存 设备 ， 以 及 机 械 磁 盘 ， 还 可 以 包 
含 OEM 版 本 的 vSphere 和 Virtual SAN 软 件 许可 。 在 设计 中 使 用 Virtual SAN 就 绪 节 点 可 以 简化 硬件 方案 设计 ， 不 用 查询 
VMware 的 硬件 兼容 性 列表 ， 因 为 厂商 选择 的 都 是 兼容 的 硬件 。Virtual SAN 就 绪 节点 是 大 中 型 Virtual SAN 超 融合 系统 的 理想 构 
建 块 ， 以 确保 硬件 兼容 性 和 来 自 硬件 厂商 和 VMware 的 技术 支持 。 


6.Virtual SAN 许 可 


Virtual SAN 并 不 包含 在 vSphere 的 价格 中 ， 它 是 运行 在 VMware vSphere 平 台 上 的 一 款 单独 许可 的 产品 ， 需 要 它 自己 的 许 
可 。 因 为 许可 策略 可 能 会 随 着 市 场 情况 变化 ， 本 文 只 做 简要 的 介绍 。 


写作 本 书 时 ，Virtual SAN 6.2 刚 网 发 布 ， 产 品 的 授权 分 为 3 种 许可 类 型 : 标准 版 、 高 级 版 和 企业 版 。 标 准 版 许可 适合 于 各 种 
实现 ， 但 不 支持 全 闪存 配置 。 去 重 、 压 缩 和 纠 删 码 特性 只 在 高 级 版 许可 模式 中 提供 。 如 果 客 户 要 采用 基于 延伸 集群 的 设计 或 者 需 


要 服务 质量 控制 (QoS) 特性 ， 那 就 得 购买 企业 版 。 
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; 虚拟 化 的 业务 关键 应 用 '; 虚拟 化 的 高 事务 量 数据 库 及 应 用 ;标准 应 用 : 
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' , 
' 于 
站 本 
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第 1 级 vSAN 数 据 3 行 依 : 
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' '. 
9 VSAN Model: All Flash HtVSAN Model: Hybrid ' VSAN Model: Hybrid 和 
» % Ind. Flash: 25% ,4% Flash: 25% sn % Flash: 10% 
%Std Flash: 75% WI% Spindle: 75% % Spindle: 90% | 
5 Disk Groups Ratio: 1:3 (Endurance Flash to Capacity Flash) w+ Disk Groups Ratio: 1:4 (Flash to Spindle) s Disk Groups Ratio: 1:7 (Flash to Spindle) a 
! Nodes per VSAN Cluster: 8 Dade 用 !! Nodes per VSAN Cluster: 14 os ,| "Nodes per VSAN Cluster 24 ee 
s Disk Groups per Host: 3 ee 1 Disk Groups per Host: 3 u Disk Groups per Host: 3 a 
主机 配置 主机 配置 主机 配置 
Component Specification Component Specification Component Specification 
ESXi Host CPU 2x Intel(R) Xeon(R) CPU E5-2690 v2 ESXi Host CPU 2xlntel(R) Xeon(R) CPU E5-2690 v2 ESXi Host CPU 2x Intel(R) Xeon(R) CPU £5-2690 v2 
@ 3.00 GHz 10C (60 GHz) @ 3.00 GHz 10C (60 GHz) @ 3.00 GHz 10C (60 GHz) 
Target vCPU:pCPU 11 Target vCPU:pCPU 3:1 Target vCPU:pCPU 4:1 
ESXi Host RAM 256 GB ESXi Host RAM 256 GB ESXi Host RAM 256 GB 
ESXi Version 6.0Update 2 ESXi Version 6.0 Update 2 ESXi Version 6.0 Update 2 
Network Adaptor 2x10Gb SFUSFP+ Network Adaptor 2x106b SFUSFP+ Network Adaptor 2x10Gb SFVSFP+ 
Storage Controller 2x12 Gb/s HBA queue depth 600 Storage Controller 2x12Gb/s HBA queue depth 600 Storage Controller 2 X12 Gb/s HBA queue depth 600 
ESXi Host Disks SSD (3x 200 GB) Endurance ESXi Host Disks SSD (3 x 200 GB) Caching ESXi Host Disks SSD (3x200 GB) Caching 
SSD (9x 400 GB) Capacity SAS 15k (9x 600 GB) Capacity SAS 10k (9x 900 GB) Capacity 
Virtual SAN 磁 盘 组 配置 Virtual SAN 磁 盘 组 配置 Virtual SAN 磁 盘 组 配置 
Endurance Capacity Caching Capacity Caching Capacity 
Pa Group 1 1x200 GB 3x400 GB era 1x200 GB 3x600 GB Bs Group 1 1x480 GB 7x900 GB 
Disk Group 2 1x200 GB 3x400 GB Disk Group 2 1x200 GB 3x600 GB Disk Group 2 1x480 GB 7x900 GB 
Disk Group 3 1x200 GB 3x400 GB Disk Group 3 1x200 GB 3x600 GB Disk Group 3 1x480 GB 7x900 GB 
Virtual SAN 存 储 策略 配置 Virtual SAN 存 储 策略 配置 Virtual SAN 存 储 策略 配置 
Number of Failures to Tolerate (FTT) 2 Number of Failures to Tolerate (FTT) 1 Number of Failures to Tolerate (FTT) 1 
Number of Disk Stripes per Object 2 Number of Disk Stripes per Object 2 Number of Disk Stripes per Object 1 
Flash Read Cache Reservation 0 Flash Read Cache Reservation 0 Flash Read Cache Reservation 0 
Object Space Reservation 0 Object Space Reservation 0 Object Space Reservation 0 
Force Provisioning Disabled Force Provisioning Disabled Force Provisioning Disabled 
IO Limits None MO Limits None VO Umits 750 


图 4-17 Virtual SAN 集 群 分 级 的 工作 负 
表 4-9 比 较 了 Virtual SAN 6.2 的 许可 特性 。 


表 4-9 ”Virtual SAN 6.2 特 性 许可 模式 


特 性 Virtual SAN 企业 版 
基于 存储 策略 的 管理 (SPBM) | * 
分 布 式 RAID (RAIN) | 
VvSAN 快照 和 克隆 | 站 
故障 域 (机 架 感知 ) EE * 
vSphere 复制 (5 分 钟 RPO) | * 


全 闪存 
去 重 和 压缩 (只 支持 全 闪存 ) * 


延伸 集群 
QoS-IOPS 限制 


人 注意 Virtual SAN 许 可 包含 了 vSphere 分 布 式 虚 拟 交换 机 ， 不 管用 户 所 选择 的 vSpherte 版 本 包括 不 包括 这 一 特性 。 因 此 ， 在 
启用 了 Virtual SAN 的 集群 中 ， 不 需要 为 了 启用 分 布 式 虚 拟 交 换 机 而 购买 vSphere 的 企业 增强 版 许可 。 





关 





* 


4.4 Virtual SAN 网 络 结构 设计 


和 其 他 的 共享 存储 解决 方案 一 样 ，Virtual SAN 也 非常 依赖 网 络 基础 架构 来 支持 集群 范围 内 的 I/O 通 信和 数据 移动 。 但 是 ， 
大 多 数 vsphere 管 理 员 并 没有 网 络 的 管理 责任 ， 不 负责 设计 和 维护 网 络 ， 特 别 是 那些 没有 采用 IP SAN 或 NAs 的 企业 。FC SAN 通 
常 由 存储 工程 师 或 专门 的 SAN 团 队 来 管理 。 因 此 ， 在 架构 设计 方面 的 一 个 挑战 是 明确 在 一 个 Virtual SAN 设 计 中 由 谁 来 负责 网 络 
的 管理 和 运 维 。 


Virtual SAN 以 复制 技术 为 核心 ， 利 用 网 络 来 传输 数据 ， 包 括 内 部 虚拟 机 IO 操作 、 复 制 流量 以 及 Virtual SAN 集 群 节点 间 的 
管理 通信 。vSphere 的 传输 由 VMkerne| 端 口 组 来 负责 ， 通 常 采用 特定 的 VLAN ， 专 门 为 Virtual SAN 所 创建 。VMKkerne| 端 口 组 


要 完成 Virtual SAN 环 境 的 网 络 传输 设计 ， 你 必须 仔细 考虑 这 一 部 分 中 所 谈 到 的 关键 因素 。 


首先 ， 你 必须 考虑 有 多 少 复制 和 通信 流量 会 通过 网 络 在 主机 间 传 递 。 在 Virtual SAN 中 ， 网 络 流量 与 运行 中 的 虚拟 机 数量 、 
应 用 负载 的 MO 特性 、 配 置 的 存储 策略 ， 以 及 采用 的 是 全 闪存 配置 还 是 混合 配置 密切 相关 。 


和 其 他 的 vSphere 内 部 通信 (如 vMotion 或 容错 ) 一 样 ， 强 烈 建议 隔离 Virtual SAN 流 量 ， 为 它 配置 单独 的 二 层 网 络 。 可 以 
使 用 专用 的 交换 和 网卡 ， 但 是 更 常见 的 情况 是 从 一 个 共享 的 10G 网 络 中 划分 一 个 单独 的 VLAN， 如 图 4-18 所 示 。 






vSphere 分 布 式 交换 机 
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人 | 
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10 Gbps | | 
WW Virtual SAN 网 络 ( VLAN ) / 
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图 4-18 ”Virtual SAN 逻 辑 网 络 设计 
Virtual SAN 网 络 设 计 包 含 很 多 主题 ， 本 单元 将 它们 分 为 两 类 : 
. vSphere 网 络 需求 
. 物理 网 络 需求 


但 是 ， 这 两 个 领域 几乎 总 是 紧密 联系 在 一 起 。 要 设计 一 个 稳定 可 靠 的 环境 ， 它 们 之 间 的 相互 关系 也 是 一 个 关键 的 架构 设计 因 


4.4.1 vSphere 网 络 需求 


vSphere 网 络 层 包含 虚拟 机 和 物理 网 络 之 间 的 所 有 网 络 通信 。 在 Virtual SAN 环 境 中 ， 与 vSphere 网 络 相关 的 主要 指标 包括 
性 能 、 可 用 性 和 安全 性 。 下 面 将 逐一 进行 讨论 。 


1.Virtual SAN VMkernel 网 络 配置 


要 为 共享 的 Virtual SAN 人 存储 提供 连接 ， 必 须 为 集群 中 的 每 一 台 主 机 配置 一 个 专用 的 VMkerne| 端 口 ， 以 保证 复制 和 同步 机 
制 能 够 运作 。 


在 所 有 的 设计 中 ，VMkernel 端 口 都 应 该 被 配置 在 专用 的 、 隔 离 的 VLAN 上 ， 只 用 于 传送 存储 内 核 产生 的 流量 。 在 可 能 的 情 
况 下 ，Virtual SAN 流 量 最 好 只 通过 二 层 网 络 传送 ， 不 要 传送 到 集群 专用 的 存储 VLAN 之 外 。 如 果 使 用 的 是 10Gb/s 的 网 卡 ， 这 些 
接口 通常 是 和 其 他 流量 类 型 共享 的 。 如 果 采 用 的 是 1Gb/s 的 网 络 ， 那 就 应 该 为 YMkernel 端 口 组 指定 专用 的 物理 网 卡 。 


其 他 需要 考虑 的 因素 包括 安全 或 性 能 需求 ， 你 也 许 应 该 建议 客户 使 用 专用 的 网 卡 ， 即 使 在 10Gb/s 网 络 中 。 甚 至 有 必要 考虑 
是 否 需 要 将 Virtual SAN 网 络 流量 配置 到 专用 的 交换 网 络 ， 以 满足 安全 与 合 规 方面 的 需求 。 这 种 方式 可 以 消除 VLAN 跳 跃 攻击 的 
风险 ， 以 及 防范 其 他 流量 影响 Virtual SAN 环 境 的 性 能 。 


全 注意 Virtual SAN 不 支持 通过 同一 子 网 中 的 多 个 VMkernel 网 卡 来 实现 负载 均衡 但 支持 多 个 VMkernel 端 口 位 于 不 同 的 网 
络 VLAN 或 单独 的 物理 交换 机 。 


2.vSphere 标 准 交换 机 和 分 布 式 虚拟 交换 机 比较 


设计 虚拟 交换 机 配置 时 ， 如 果 其 他 设计 因素 没有 指明 ， 我 们 至 少 需要 决定 是 使 用 vSphere 标 准 交 换 机 还 是 vsphere 分 布 式 交 
换 机 (VDS) ，Virtual SAN 支 持 这 两 种 交换 机 。 


vSphere 标 准 交 换 机 的 好 处 是 实现 简单 。 但 是 ， 随 着 Virtual SAN 环 境 的 增长 ， 采 用 VDS 就 可 能 是 更 好 的 选择 了 ， 它 提供 了 
一 些 对 Virtual SAN 环 境 有 益 的 独 有 特性 ， 包 括 网 络 VO 控 制 (NIOC) 、 链 路 聚合 控制 协议 (LACP) ， 以 及 NetFlow。 另 一 个 
需要 考虑 的 内 容 是 要 不 要 把 VMware NSX 包 括 在 整体 架构 中 。 


在 Virtual SAN 环 境 中 使 用 vSphere 分 布 式 交 换 的 好 处 之 一 是 可 以 使 用 网 络 MO 控 制 (NIOC) 功能 ， 当 网 络 拥塞 时 可 以 配置 
带宽 的 优先 级 。 例 如 ，Virtual SAN 的 复制 和 同步 活动 会 对 网 络 造成 较 大 影响 ， 甚 至 造成 拥塞 。 由 于 虚拟 机 的 数量 、 网 络 活动 程 
度 、Virtual SAN 网 络 的 利用 率 等 因素 ，1Gby/s 的 网 络 很 容易 被 填 满 和 过 载 ， 尤 其 是 执行 重建 和 同步 操作 的 时 候 。 通 过 使 用 NOIC 
和 QoS，vSphere 能 够 管理 拥塞 ， 基 于 共享 值 为 不 同 的 流量 类 型 提供 相应 的 优先 级 别 。 


vSphere 分 布 式 交换 机 的 许可 与 Virtual SAN 打 包 在 一 起 ， 不 需要 为 了 在 启用 了 Virtual SAN 的 集群 中 使 用 这 些 高 级 特性 而 购 
买 vSphere 企 业 增 强 版 许可 。 这 一 许可 策略 为 你 在 Virtual SAN 的 环境 中 使 用 vSphere 分 布 式 交换 机 扫 清 了 障碍 。 


3.Virtual SAN 网 络 绑 定 设计 


Virtual SAN 流 量 并 没有 设计 成 跨 多 个 网 卡 负载 均衡 ， 网 卡 绑 定 在 一 起 并 不 能 实现 带宽 聚合 的 目的 ， 只 是 单纯 地 为 了 实现 郊 
余 ， 以 提高 可 用 性 ， 而 不 是 性 能 。 


尽管 Virtual SAN 支 持 IP 哈 希 负 载 均衡 ， 但 这 并 不 能 保证 在 所 有 的 设计 中 都 可 以 提升 性 能 。 只 有 当 Virtual SAN 使 用 共享 接口 
时 ，IP 哈 希 才 能 发 挥 作用 。 如 果 Virtual SAN 使 用 的 是 专 有 接口 ， 性 能 可 能 不 会 提升 。 例 如 ， 在 一 个 为 YMkernel 端 口 组 配置 两 
个 专用 1Gbys 物 理 网 卡 的 设计 中 ， 如 果 为 Virtual SAN 启 用 了 IP 哈 希 ， 网 络 平台 可 能 无 法 使 用 超过 1Gbys 的 链 路 带宽 ， 这 同样 适 


用 于 所 有 其 他 的 vSphere 网 卡 绑 定 策略 。 
要 提供 可 靠 和 可 预测 的 性 能 ， 表 4-10 列 出 了 几 个 可 以 使 用 多 个 网 卡 来 实现 可 用 性 和 宛 余 的 备 选 方案 。 


表 4-10 Virtual SAN 网 络 绑 定 


负载 均衡 算法 配 置 描 述 
基于 端口 ID 的 路 由 明确 切换 顺序 的 活跃 / 待命 模式 基本 的 ， 配 置 简单 
应 用 在 物理 网 络 使 用 端口 通道 配 
置 的 场景 
应 用 在 物理 网 络 使 用 端口 通道 配 
置 的 场景 


链 路 聚合 控制 协议 (LACP)， 基 
于 IP 哈 希 的 路 由 

链 路 聚合 控制 协议 (LACP)， 基 
于 物理 网 卡 负载 


LACP 端口 通道 双 活 模式 


LACP 端口 通道 双 活 模式 





作为 常用 的 设计 建议 ， 假 设 LACP 在 你 的 环境 中 可 用 ， 使 用 基于 物理 网 卡 负载 的 双 活 模式 可 以 确保 空闲 的 网 卡 不 必 等 到 故障 
发 生 时 才 发 挥 作 用 ， 可 以 实现 基于 网 卡 负载 的 带宽 聚合 。 
4. 网 络 MO 控 制 


正如 我 在 第 2 章 所 述 ，vSphere 分 布 式 交换 机 的 NIOC 特 性 为 ESXi 主 机 内 部 的 网 络 流量 提供 QoS 机 制 。 这 一 特性 可 以 防范 流量 
在 网 络 内 部 泛滥 ， 导 致 拥塞 ， 影 响 Virtual SAN 复 制 和 同步 活动 。 另 外 ， 建 议 采 用 802.1P QoS 为 流量 加 标签 ， 并 配置 上 游 的 物理 
交换 机 支持 这 些 标签 。 如 果 Qos 标 签 无 法 实现 ，NIOC 机 制 的 价值 就 只 局 限于 主机 内 部 了 。 

在 如 图 4-19 所 示 的 设计 示例 中 ，vSphere 分 布 式 交换 机 配置 为 通过 两 个 10Gb/s 上 联接 口传 送 来 自 Virtual SAN 中 的 每 一 台 主 
机 的 多 种 流量 。NIOC 监 测 网 络 发 现 拥塞 时 ， 自 动 按照 NIOC 策 略 的 配置 ， 将 资源 切换 到 高 优先 级 应 用 。 


图 4-19 中 的 Virtual SAN 集 群 中 所 有 节点 都 使 用 同一 个 vSphere 分 布 式 交换 机 ， 这 人 台 交 换 机 用 来 传送 所 有 的 网 络 流量 类 型 。 
每 台 主 机 配置 使 用 一 个 单独 的 dvUplink 组 ， 其 中 包括 两 个 双 活 的 10Gb/s 以 太 网 卡 。 


10GbE 双 以 太 网 卡 


uplinkl | uplink2 
ln | i 


i 
下 ~ 
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vSphere 分 布 式 交换 机 


Virtual SAN 集 群 节点 


图 4-19 ”网 络 I/O 控 制 





在 这 个 例子 中 ， 所 有 连接 到 主机 网 卡 的 物理 网 络 交换 机 端口 都 根据 交换 机 厂商 的 建议 配置 成 了 中 继 (Trunk) 端口 。 图 4-19 
中 还 显示 端口 组 采用 了 VLAN 技 术 来 实现 流量 的 逻辑 分 段 ， 虚 拟 交换 机 负责 给 流量 加 标签 。 上 联 端口 配置 为 双 活 模式 ， 采 用 基于 
物理 网 卡 负载 路 由 的 方式 进行 负载 均衡 ， 物 理 交换 机 使 用 了 以 太 网 通道 技术 。 虚 拟 和 物理 交换 机 按照 设计 配置 为 只 传送 特定 的 
VLAN， 而 不 是 为 所 有 的 VLAN 做 中 继 。 


两 个 10Gbys 的 网 卡 配置 所 有 VLAN 之 上 的 入 站 和 出 站 流量 。 用 户 定义 的 网 络 资源 池 按照 端口 组 来 配置 ， 如 表 4-11 所 示 。 


表 4-11 示例 的 Virtual SAN 集 群 网 络 I/ 〇 控制 策略 


通常 来 说 ， 不 建议 使 用 限 速 ， 因 为 这 为 网 络 资源 的 使 用 指定 了 硬性 的 上 限 。 如 果 设 计 确 实 需要 使 用 限 速 ， 务 必 准 确 计算 可 用 
的 MB/s， 基 于 可 用 带宽 的 百分比 来 设计 限 速 。 





表 4-11 中 所 示 的 QoS 标 签 与 所 有 的 出 站 包 相 关联 ， 这 使 得 兼容 的 上 游 交 换 机 可 以 识别 和 利用 这 些 标签 。 缺 省 的 设置 是 无 ， 
可 以 配置 的 值 是 1 ~ 7。 


通过 将 Virtual SAN、 虚 拟 机 和 VvMeotion 流 量 分 到 不 同 的 VLAN 端 口 组 ， 并 使 用 NIOC 共 享 和 Qos 机 制 ， 通 常 可 以 保证 每 一 种 
流量 都 能 达到 设计 的 性 能 ， 即 使 在 拥塞 发 生 的 时 候 。 


4.4.2 ”物理 网 络 需求 


到 目前 为 止 ， 典 型 的 企业 和 服务 商 数据 中 心 网 络 仍然 采用 三 层 架 构 (访问 层 、 汇 聚 层 与 核心 层 ) 设计 。 这 种 传统 的 架构 设计 
主要 用 于 服务 南北 向 流量 ， 即 流入 和 流出 数据 中 心 的 网 络 流量 。 尽 管 这 种 架构 提供 了 较 好 的 可 用 性 ， 但 可 能 也 限制 了 带宽 的 使 
用 。 这 种 限制 通常 源 于 生成 树 协议 ， 它 被 用 来 防止 出 现 网 络 环 路 。 


然而 ， 随 着 计算 、 网 络 和 存储 平台 虚拟 化 的 演进 ， 最 近 越 来 越 多 的 数据 中 心 开始 采用 叶 - 冰 模 型 。 叶 - 丕 拓扑 简化 了 扩展 性 、 
带宽 、 可 用 性 和 服务 质量 的 实现 。 


Virtual SAN 对 两 种 拓扑 结构 都 支持 。 因 此 ， 设 计 的 重点 是 在 部 署 新 的 Virtual SAN 集 群 时 是 否 已 经 存在 可 用 的 网 络 基础 架 
构 。 在 一 个 全 新 的 环境 中 设计 Virtual SAN 时 ， 可 以 就 物理 网 络 拓扑 向 客户 提出 建议 。 


1. 核 心 、 汇 聚 和 访问 层 拓扑 


如 图 4-20 所 示 ， 传 统 的 网 络 模型 使 用 三 层 。 树 的 底部 是 访问 层 ，vSphere 主 机 在 这 里 接 入 物理 网 络 。 访 问 层 以 元 余 的 方式 连 
接 于 汇聚 层 ， 为 数据 中 心 内 部 机 柜上 邻近 的 访问 层 提供 连通 性 。 汇 聚 层 也 提供 到 核心 的 连通 性 。 核 心 层 提供 到 数据 中 心 其 他 部 分 
以 及 外 部 网 络 的 高 速 连 接 。 


服务 器 机 架 1 





》 4 让 生成 树 协议 阻 断 的 端口 
图 4-20 核心 、 汇 聚 和 访问 层 网 络 模型 


如 果 层 与 层 之 间 的 上 联 链 路 过 载 ， 核 心 、 汇 聚 和 访问 模型 就 会 成 为 瓶颈 。 如 果 通 过 大 量 添加 架 顶 交换 机 的 方式 来 扩展 网 络 ， 
就 很 容易 出 现 这 种 情况 。 问 题 也 可 能 出 现在 流量 跨 层 传递 时 所 产生 的 延 时 ， 以 及 被 生成 树 协议 阻 断 的 元 余 链 路 。 因 为 这 些 原 因 ， 
我 们 看 到 越 来 越 多 的 企业 和 运营 商 开始 从 三 层 架构 向 更 简洁 、 更 有 效率 的 拓扑 结构 转变 。 


2. 叶 - 背 拓 扑 


在 叶 - 肴 拓扑 中 ， 叶 交换 机 通过 路 由 或 三 层 交 换 网 络 与 脊 交 换 机 全 互联 。 叶 - 肴 模型 中 的 肴 交换 机 是 三 层 交 换 机 ， 叶 交换 机 通 

常 采用 小 型 的 三 层 架 顶 交 换 机。 负载 均衡 和 故障 切换 通过 等 价 多 路 径 (ECMP) 协议 来 实现 。ECMP 有 多 种 选择 ， 如 OSPF 或 IS- 

1S。 如 图 4-21 所 示 ， 如 果 数 据 包 需 要 从 一 个 机 架 发 送 到 另 一 个 ， 只 要 一 跳 就 够 了 。 这 也 意味 着 流量 可 以 通过 所 有 的 路 径 实现 负载 
均衡 。 


3. 比 较 三 层 网 络 和 叶 - 销 拓扑 


正如 我 们 前 面 强调 的 ，Virtual SAN 可 以 支持 两 种 网 络 拓扑 结构 。 我 们 在 考虑 采用 三 层 设 计 或 叶 - 背 拓 扑 时 ， 还 应 该 考虑 其 他 
的 网 络 架 构 因 素 。 


需要 引起 注意 的 设计 因素 如 下 : 
* 叶 - 瑚 架构 没有 生成 树 。 所 有 的 链 路 都 可 以 正常 使 用 ， 没 有 不 可 用 端口 。 


“ 叶 - 珍 架构 更 容易 扩展 。 当 机 架 数量 增加 时 可 以 添加 更 多 的 叶 交 换 机 ， 消 交换 机 可 以 按 需 添加 ， 以 满足 性 能 需求 。 


* 叶 - 券 架构 不 需要 专 有 协议 。 要 提供 统一 的 访问 和 一 致 的 低 延 时 ， 可 以 选择 任何 使 用 ECMP 协 议 的 路 由 协议 ， 如 OSPF、 
BGP 或 IS-IS。 
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图 4-21 叶 - 峭 网 络 模 型 


4. 机 架构 建 块 体系 结构 


在 Virtual SAN 设 计 中 ， 将 服务 器 部 署 在 多 个 机 架 中 是 一 种 好 的 设计 ， 将 vSphere 主 机 和 集群 跨 机 架 分 布 ， 可 以 减少 由 硬件 
故障 所 造成 的 影响 。 为 元 余 电 源 接 线 时 ， 机 架 应 该 有 两 个 电力 分 配 单元 (PDU) ， 每 个 都 连接 到 数据 中 心中 独立 的 接线 板 ， 接 
线 板 也 要 连接 到 独立 的 不 间断 电源 ， 如 图 4-22 所 示 。 


这 种 设计 也 与 Virtual SAN 故 障 域 的 概念 相 匹 配 ， 本 章 后 面 将 会 介绍 。 


5 带宽 需求 


VMware Virtual SAN 支 持 混合 使 用 1Gb/s 和 10Gb/s 的 以 太 网 卡 作为 上 联 链 路 。 但 是 ， 如 果 上 面 承 载 的 虚拟 机 较 多 ， 工 作 负 
载 较 重 ，Virtual SAN 的 MO 可 以 充满 1Gb/s 的 网 络 ， 导 致 拥塞 ， 可 能 成 为 设计 中 的 瓶颈 。 网 络 带宽 性 能 会 对 主机 撤离 和 重建 时 间 
产生 较 大 影响 。 例 如 ， 在 MO 密集 的 场景 中 ， 进 行 重建 或 同步 操作 ， 或 者 克隆 或 部 署 虚拟 机 等 其 他 大 量 磁 盘 /O 的 情况 ，1Gbys 的 
环境 中 MO 可 能 会 受到 限制 。 


我 们 强烈 建议 在 企业 和 服务 商 的 环境 中 只 使 用 10Gb/s 的 网 络 基础 架构 ， 以 使 虚拟 机 中 的 工作 负载 达到 最 高 级 别 的 性 能 。 没 
有 10Gb/s 的 支持 ， 就 可 能 会 遇 到 严重 的 性 能 降级 。 


在 全 闪存 的 Virtual SAN 模 式 下 ，10Gby/s 的 以 太 网 是 强制 要 求 ， 目 的 是 极 大 提升 全 闪存 配置 环境 的 性 能 。 高 的 网 络 带宽 才能 
匹配 磁盘 组 中 闪存 设备 的 读 写 速度 。 也 支持 40Gb/s 的 以 太 网 卡 。 即 使 Virtual SAN 不 能 用 掉 全 部 的 带宽 ， 这 种 设计 对 于 全 闪存 配 
置 环境 中 的 高 MO 工作 负载 也 是 最 适合 的 。 


另 一 个 设计 考虑 是 叶 - 背 架 构 的 带宽 复 用 ， 因 为 全 互联 拓扑 和 端口 密度 的 限制 ， 叶 交换 机 通常 会 复 用 带宽 。 例 如 ，Virtual 
SAN 使 用 一 条 10Gby/s 的 上 联 链 路 ， 如 果 叶 交换 机 的 复 用 比 是 4: 1， 每 台 主机 可 能 只 能 达到 2.5Gby/s 的 吞吐 。 如 图 4-23 所 
示 ，Virtual SAN 的 流量 必须 遍历 背 交 换 机 。 复 用 网 络 拓扑 所 带 来 的 影响 ， 以 及 实际 的 可 用 带宽 ， 在 使 用 叶 - 背 架 构 时 应 该 重点 考 
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图 4-22 ”Vittual SAN 优 化 的 机 架设 计 
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6. 巨 型 帧 


如 我 们 在 第 3 章 中 讨论 的 iSCSI 和 NFSs 协 议 一 样 ， 在 可 能 的 情况 下 ，Virtual SAN 端 口 组 (VMKkernel 端 口 ) 应 该 配置 为 使 用 巨 
型 帧 ， 也 就 是 9000 的 MTU 值 ， 在 Virtual SAN 网 络 中 实现 端 到 端的 最 大 传输 单元 ， 否 则 网 络 中 的 组 件 可 能 需要 将 数据 帧 分 段 为 
1500 字 节 的 段 ， 这 会 导致 较 高 的 延 时 。 


在 Virtual SAN 环 境 中 启用 巨型 帧 的 原则 与 之 前 讨论 的 IP SAN 或 NAS 架 构 是 一 样 的 。 巨 型 帧 使 你 可 以 在 每 个 帧 里 放 入 多 于 
1500 个 字 节 ， 以 改进 传输 效率 。 测 试 表 明 ， 巨 型 帧 可 以 降低 CPU 利用 率 并 能 提升 网 络 吞吐 。 


如 果 已 经 启用 了 巨型 帧 或 者 为 一 个 全 新 的 环境 进行 设计 ， 建 议 你 为 Virtual SAN 环 境 启用 它 。 但 是 ， 配 置 大 量 的 网 络 设备 以 
实现 巨型 帧 的 传输 会 带 来 额外 的 管理 开销 ， 要 权衡 一 下 是 否 值得 为 了 少量 的 性 能 提升 而 采用 这 种 设计 。 


7.Virtual SAN 流 量 隔离 


与 我 们 在 第 3 章 中 讨论 的 iSCSI 和 NFS 人 存储 协议 一 样 ， 建 议 通过 专用 的 VLAN 来 隔离 Virtual SAN 流 量 。 此 外 ， 如 果 在 设计 中 
包含 了 多 个 启用 Virtual SAN 的 集群 ， 每 个 集群 都 应 该 有 自己 的 专用 VLAN， 用 于 隔离 复制 和 工作 负载 流量 ， 以 防止 不 同 集群 中 
的 流量 相互 影响 ， 并 简化 集群 网 络 配置 的 故障 分 析 。 


8. 网 络 组 播 


Virtual SAN 1 到 6.2 版 本 依靠 组 播 在 集群 中 各 主机 之 间 传 递 元 数据 ， 以 更 有 效 地 使 用 网 络 带宽 。 组 播 与 广播 有 点 类 似 ， 但 主 
机 可 以 位 于 不 同 的 子 网， 并 且 只 有 组 播 组 的 成 员 或 订阅 者 可 以 接收 到 信息 。 


在 网 络 中 实现 组 播 路 由 对 一 些 网 络 管理 员 来 说 可 能 是 非常 有 挑战 的 事情 ， 因 为 必须 在 Virtual SAN 流 量 途 经 的 所 有 物理 交换 
机 和 路 由 器 上 配置 IP 组 播 ， 还 可 能 包括 三 层 路 径 。 


Virtual SAN 利 用 组 播 来 实现 集群 内 部 通信 ， 可 以 利用 网 际 组 管理 协议 (IGMP) 版 本 3 的 嗅 探 功能 将 组 播 限定 在 特定 的 端口 
组 和 VLAN。 最 佳 实践 是 不 要 将 组 播 流量 扩散 到 所 有 网 络 的 交换 端口 。 


通常 来 说 ， 厂 商 不 会 缺 省 启用 组 播 ， 没 有 配置 IGMP 嗅 探 以 允许 流量 通过 。 通 过 配置 IGMP 嗅 探查 询 器 可 以 限制 物理 交换 机 
端口 参与 的 组 播 组 。 只 需要 向 Virtual SAN VMkernel 端 口 的 上 联 链 路 传送 。 要 确保 组 播 流 量 可 以 被 正确 传递 ， 必 须 按照 硬件 厂 
商 的 配置 建议 合理 配置 IGMP 协 议 ， 不 同 交 换 机 厂商 的 IGMP 嗅 探 配置 方式 是 不 同 的 。 我 们 前 面 介绍 过 ， 建 议 只 在 Virtual SAN 使 
用 的 网 段 或 交换 机 端口 上 局 用 组 播 流量 。 


每 一 台 启 用 了 Virtual SAN 的 主机 在 加 入 Virtual SAN 集 群 时 都 需要 配置 组 播 地 址 。 如 果 在 你 的 设计 中 有 多 个 Virtual SAN 集 
群 位 于 同一 个 二 层 网 络 ， 除 第 一 个 Virtual SAN 集 群 以 外 ， 其 他 集群 中 所 有 主机 使 用 的 缺 省 组 播 地 址 必须 更 改 。 虽 然 VMware 支 
持 同一 网 络 中 的 多 个 Virtual SAN 集 群 使 用 相同 的 组 播 地 址 ， 配 置 不 同 的 地 址 可 以 避免 多 个 集群 收 到 全 部 的 组 播 数据 流 ， 从 而 减 
少 网 络 负载 。 


如 果 设 计 中 还 包含 VMware NSX， 组 播 地 址 范围 需要 特别 考虑 ， 因 为 其 他 的 网 络 服务 ， 包 括 VXLAN 都 会 使 用 组 播 地 址 。 
9. 三 层 网 络 之 上 的 Virtual SAN 


vSphere 5.5 Update 1 中 所 包含 的 Virtual SAN 版 本 1 并 不 支持 三 层 路 由 ， 因 此 在 设计 时 必须 使 用 相同 的 二 层 子 网 ， 可 靠 数 
据 报 文 传输 (Reliable Datagram Transport，RDP) 协议 并 不 能 延伸 到 不 同 的 网 段 。 随 着 vSphere 5.5 Update 4 和 vSphere 6 
的 发 布 ，Virtual SAN 可 以 运行 于 三 层 网 络 之 上 了 。 


如 果 设 计 需 要 Virtual SAN 主 机 跨越 三 层 网 络 边 界 ， 必 须 确保 网 络 已 经 配置 了 正确 的 组 播 连 接 。 在 Virtual SAN 故 障 域 设 计 和 
Virtual SAN 延 伸 集 群 中 使 用 三 层 网 络 是 合适 的 ， 故 障 域 会 在 本 章 的 后 面 进行 介绍 ， 延 伸 集 群 的 内 容 包含 在 第 5 章 中 。 


10. 物 理 网 络 的 服务 质量 (QoS) 


在 Virtual SAN 环 境 中 ， 服 务 质量 (QoS) 可 以 通过 NIOC 来 实现 ， 按 照 份 额 分 配 一 定数 量 的 网 络 带宽 给 Virtual SAN 流 量 。 
这 种 配置 在 共享 使 用 10Gbys 网 卡 时 非常 有 用 ， 设 计 中 必须 采用 vSphere 分 布 式 交换 机 。 


11.IPv6 支 持 


要 支持 互联 网 协议 版 本 6 (IPv6) ， 就 要 使 用 Virtual SAN 6.2 或 以 后 版 本 。Virtual SAN 6.2 可 以 运行 在 原生 的 纯 I|Pv6 模 式 ， 
所 有 的 网 络 通信 都 通过 IPv6 实 现 ， 或 者 IPv4 与 1Pv6 混 合 模式 ， 这 种 模式 通常 用 于 两 种 协议 过 渡 阶 段 。 使 用 IPv6 不 会 影响 Virtual 
SAN 在 二 层 和 三 层 网 络 中 的 需求 条 件 。 


通过 提供 对 IPv6 的 支持 ，Virtual SAN 与 VSphere 保 持 一致 ， 以 更 好 地 满足 客户 的 需求 ， 特 别 是 那些 正在 向 新 版 本 协议 迁移 
的 服务 提供 商 和 政府 行业 。 


12 .防火 墙 设计 需求 


在 一 个 三 层 网 络 或 者 Virtual SAN 延 伸 集群 配置 中 ， 可 能 需要 配置 防火 墙 规则 ， 以 允许 Virtual SAN 流 量 通过 。 管 理 员 需要 配 
置 安全 设置 ， 确 保 Virtual SAN 的 /O 的 元 数据 流量 可 以 跨 过 网 络 边界 进行 传递 。 表 4-12 列 出 了 Virtual SAN 网 络 防火 墙 需求 。 同 
时 也 别 忘 了 配置 防火 墙 允 许 其 他 的 vSphere 流 量 通过 。 


表 4-12 Virtual SAN 防 火 墙 端口 需求 


Virtual SAN 合作 厂商 (VSANVP) TCP/ 单 播 8080 VvCenter 到 ESXi， 流 入 和 流出 








Virtual SAN 集群 服务 (CMMDS ) UDP/ 组 播 12 345, 23 451 流入 和 流出 
可 靠 数据 报 文 传输 (RDT) TCP/ 单 播 流入 和 流出 


VSAN 监视 器 TCP/ 单 播 





8010 用 于 获取 Virtual SAN 的 性 能 统计 


13.Virtual SAN 网 络 设 计 概 要 


网 络 设计 是 Virtual SAN 环 境 整 体 架 构 设 计 、 实 现 、 性 能 和 稳定 性 的 关键 ， 因 此 必须 优先 于 其 他 设计 完成 。 下 面 是 一 些 
Virtual SAN 网 络 架构 设计 的 主要 设计 要 素 : 


“ Vittual SAN 网 络 配置 。 


: 使 用 的 虚拟 交换 机 版 本 
巨型 帧 的 使 用 。 
:网络 组 播 需 求 。 


“ 网 卡 绑 定 和 故障 切换 考虑 。 


. 采用 802.1Q VLAN 标 签 远 辑 分 隔 网 络 流量 和 负载 ， 将 Vittual SAN 流 量 分 配 到 专用 的 VLAN。 
: 使 用 QoS 标签 和 网 络 I/O 控 制 。 


. 宛 余 设计 ， 每 台 主 机 至 少 两 块 活跃 的 物理 网 卡 〈 最 好 是 10GbE) 。 如 果 可 能 ， 跨 物理 设备 提供 网 卡 宛 余 ， 以 防范 主机 PCIe 
揪 模 故障。 


: 物理 网 卡 应 该 连接 到 宛 余 的 物理 交换 机 ， 以 抵御 单一 物理 交换 机 故障 所 带 来 的 可 用 性 风险 。 


4.5 Virtual SAN 存 储 策略 设计 


我 们 前 面 介绍 过 ，VMware 的 下 一 代 存 储 产品 为 虚拟 机 的 性 能 与 可 用 性 管理 提供 了 新 的 方法 。 使 用 Virtual SAN 时 ， 为 了 表 
明 虚 拟 机 的 特性 和 可 用 性 需求 ， 我 们 使 用 存储 策略 (Storage Policies) 。 存 储 策略 使 用 规则 集 ，vSphere 存 储 管理 员 在 创建 这 
些 规则 集 时 可 以 了 解 到 存储 的 特性 。 规 则 集 用 来 管理 单个 虚拟 机 或 虚拟 磁盘 的 容量 、 性 能 和 可 用 性 。 而 我 们 在 使 用 传统 存储 模型 
时 ， 这 些 特性 是 在 数据 存储 级 别 定义 的 。 


这 一 部 分 将 介绍 Virtual SAN 所 提供 的 SPBM 框 架 功 能 。 这 些 功 能 在 创建 存储 策略 时 可 以 组 合 使 用 ， 然 后 再 将 存储 策略 指派 
到 虚拟 机 ， 以 定义 它 所 连接 的 存储 所 具备 的 特性 。 存 储 策略 可 以 在 创建 一 个 新 的 虚拟 机 时 指定 ， 也 可 以 在 线 修改 。 例 如 ， 当 工作 
负载 的 存储 需求 改变 时 。 这 些 改变 不 会 影响 到 虚拟 机 的 运行 状态 。 


4.5.1 ”基于 存储 策略 的 管理 框架 


Virtual SAN 的 存储 策略 框架 也 集成 了 vSphere 存 储 感知 API (vSphere APls for Storage Awareness，VASA) ， 以 便 将 存 
储 设备 的 特性 暴露 给 vSphere。 


这 种 基于 存储 策略 的 管理 框架 (SPBM) 是 一 种 策略 驱动 的 、 面 向 虚拟 机 部 署 的 存储 管理 机 制 。SPBM 框 架 是 软件 定义 存储 
管理 和 控制 平面 的 基础 组 件 ， 如 图 4-24 所 示 。 它 使 得 vSphere 存 储 管理 员 可 以 简化 部 署 工作 ， 如 容量 规划 ， 并 能 够 实现 为 不 同 的 
虚拟 机 负载 提供 差异 化 的 服务 级 别 和 性 能 级 别 。 


S00 00ss (bestype ss + shoe estt 
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图 4-24 vSphere Web 客 户 端 中 的 存储 策略 管理 框架 


SPBM 为 工作 负载 定义 标准 存储 配置 ， 优 化 虚拟 机 的 部 署 过 程 ， 我 们 不 再 需要 为 虚拟 机 逐 台 部 署 存储 。 这 种 机 制 也 利用 工具 
极 大 地 改进 了 自动 化 ， 这 些 工具 包括 PowerCLI、vSphere API、VvRealize Automation、vCloud Director for Service 
Providers、VMware Integrated OpenStack (VIO) 和 其 他 一 些 利用 vSphere SPBM API 自 动 管理 存储 的 应 用 。 


这 个 框架 将 底层 的 可 用 存储 功能 呈现 出 来 ， 以 便 管理 员 通 过 存储 策略 将 它们 在 虚拟 机 或 虚拟 磁盘 级 别 指定 到 工作 负载 ， 如 图 
4-25 所 示 。 








应 用 
时 操作 系统 
Lg Se 
Server 
虚拟 磁盘 县 


ic 


对 象 管理 器 ( CLOM ) 


Virtual SAN 
数据 存储 











图 4-25 Vittual SAN 存 储 策 略 对 象 置 备 机 制 


4.5.2 _ Virtual SAN 规则 
存储 策略 规则 包括 存储 系统 提供 的 特定 厂商 的 元 数据 标签 和 表明 存储 特性 的 用 户 定义 值 。 这 个 元 数据 标签 和 与 它 相关 联 的 值 
被 一 起 使 用 ， 以 确保 规则 会 被 正确 应 用 ， 保 证 对 象 的 遵从 性 。 


例如 ， 作 为 一 个 存储 服务 提供 者 ，Virtual SAN 通 过 VASA 发 布 一 些 特性 ， 其 中 的 一 个 是 FTT， 这 个 功能 被 SPBM 机 制 用 来 定 
义 应 用 了 该 策略 的 虚拟 机 对 象 可 以 承受 多 少 个 主机 、 磁 盘 和 /或 网 络 故障 。FTT 容 量 的 最 小 配置 值 是 0， 缺 省 值 是 1， 最 大 值 是 3。 


如 果 我 们 创建 一 条 规则 ， 将 此 项 功能 的 数值 设置 为 2， 这 条 规则 将 对 受 管 虚拟 机 施加 约束 ， 人 存储 策略 会 为 虚拟 机 查找 满足 条 
件 的 Virtual SAN 数 据 存储 ， 可 以 为 虚拟 机 创建 n+ 1 个 副本 ， 而 且 有 2n+ 1 个 虚拟 机 可 以 提供 存储 容量 。 


对 于 vSphere 存 储 管理 员 ， 通 过 查看 存储 能 力 来 确定 存储 策略 中 需要 包含 哪些 功能 和 数值 ， 下 一 步 就 是 将 规则 组 合成 规则 
集 ， 被 存储 策略 所 引用 。 


4.5.3 _ Virtual SAN 规则 集 


规则 集 (Rule set) 是 一 组 用 来 描述 虚拟 机 对 象 存 储 需求 的 规则 。 一 个 存储 策略 可 以 包含 一 个 或 多 个 用 来 定义 Virtual SAN 
存储 资源 需求 的 规则 集 ， 如 图 4-26 所 示 。 通 常 来 说 ， 规 则 集 用 来 决定 Virtual SAN 数 据 存 储 上 虚拟 机 的 配置 。 例 如 ， 我们 可 以 决 
定 组 成 虚拟 机 对 象 (如 VMDK 对 象 ) 的 匈 余 级 别 ， 也 可 以 用 来 指定 负载 所 需要 的 性 能 特性 。 这 些 规 则 通常 在 创建 新 的 虚拟 机 存 
储 策略 时 指定 。 


Name and desc ription Rule-Set2 
Seled rules specific for a datastore type. Rules can be based on dat services provided bydatastore or based on tags. 
Rule-Set 1 The W siprage policy will match datastores that satisfyall the rules in atlieast one ofthe rule-sets. 


see Rules pasod on sats soveos 


Number ofdisk stipes per object 
Flash read cache reservation (%) 
Number offailures to tplerate 
Disable obje ct checksum 

Force provisioning 

Object space reservation (%) 





图 4-26 ”存储 配置 规则 集 


如 表 4-13 所 示 ， 每 个 Virtual SAN 的 存储 特性 都 有 一 个 缺 省 值 、 一 个 最 小 值 和 一 个 最 大 值 。 我 们 可 以 选择 任何 组 合 来 创建 用 
于 存储 策略 的 规则 集 。 


在 本 例 中 ， 规 则 集 包 含 两 条 适用 于 Virtual SAN 数 据 存储 的 规则 ， 需 要 足够 的 容量 为 虚拟 机 对 象 创建 3 个 副本 ， 每 个 副本 最 
少 存 在 于 两 块 磁盘 上 。 人 存储 能 力 如 表 4-13 所 示 。 


表 4-13 Virtual SAN 规 则 集 示 例 


可 容忍 的 故障 数量 缺 省 值 为 1， 最 大 值 为 3 
每 个 对 象 条 带 的 数量 缺 省 值 为 1， 最 大 值 为 12 
对 象 空间 预 留 | 缺 省 值 为 0%， 最 大 值 为 100% 


闪存 读 缓存 缺 省 值 为 0%， 最 大 值 为 100% 


强制 部 署 缺 省 值 为 No， 可 选 Yes 
1. 容 错 数量 


我 们 要 讨论 的 第 一 个 功能 是 容错 数量 (FTT) 。 它 是 Virtual SAN 可 用 性 机 制 的 核心 。 这 条 策略 用 来 控制 虚拟 机 组 件 的 副本 
或 镜像 拷贝 的 数量 。 这 条 策略 可 以 在 虚拟 机 或 虚拟 磁盘 级 别 进行 配置 。FTT 功 能 也 会 影响 Virtual SAN 数 据 存储 的 容量 ， 在 设计 
时 要 重点 考虑 ， 这 直接 关系 到 虚拟 机 如 何 消耗 物理 磁盘 空间 。 


如 图 4-27 所 示 ， 要 能 够 承受 n 个 故障 ， 则 数据 必须 有 n+1 个 副本 ， 因 此 需要 2n+1 个 主机 。 假 设 FTT 配 置 为 1， 虚 拟 机 磁盘 就 
需要 有 两 个 副本 。 如 果 我 们 把 配置 改 为 2， 那 就 需要 创建 3 个 副本 。 如 果 存 储 镜像 副本 的 主机 磁盘 发 生 了 故障 ， 副 本 就 会 接替 它 
提供 服务 。 


与 FTT 功 能 相关 的 主要 设计 考虑 是 它 可 以 导致 存储 空间 利用 的 极 大 增加 ， 因 为 副本 的 存在 ， 对 物理 存储 空间 的 占用 可 能 远大 
于 虚拟 机 磁盘 的 容量 。 另 一 个 需要 注意 的 因素 是 副本 的 增加 会 增加 一 台 主 机 上 的 组 件数 量 ， 在 Virtual SAN 6 中 ， 组 件数 量 的 最 


大 值 是 9000， 而 在 早期 版 本 中 这 个 值 只 有 3000。 


与 这 一 功能 有 关 的 存储 策略 应 该 按照 虚拟 机 或 虚拟 磁盘 的 可 用 性 需求 来 设计 。 缺 省 的 数值 是 1， 除 非 缺 省 策略 被 修改 了 。 最 
大 的 FTT 值 是 3， 需 要 Virtual SAN 集 群 中 有 至 少 7 台 主 机 或 故障 域 。 满 足 各 FTT 值 所 需要 的 主机 数量 如 表 4-14 所 示 ，Virtual SAN 
数据 存储 中 的 组 件 分 布 示例 如 图 4-27 所 示 。 








Virtual SAN 
数据 存储 
| | 
主机 | 
| | 
| | 
| | 
写 缓冲 与 读 缓存 层 | | 
Dx | 
容量 磁盘 | 
| | 
| | 
| | 
组 件 I s 
| VMDK VMDK 见证 | 
~50% IO ~50% IO 
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图 4-27 ”容错 功能 的 组 件 分 布 
表 4-14 可 容忍 故 障 数 量 与 主机 数量 的 关系 
可 容忍 故障 数量 镜像 拷贝 / 副本 ESXi 主机 / 故障 域 的 最 小 需求 


2 5 


; | 7 


只 有 非常 少数 的 场景 下 ，FTT 会 被 配置 为 0， 特 别 是 生产 环境 。 通 常 来 说 ， 这 种 策略 只 用 于 测试 环境 ， 磁 盘 空间 紧张 ， 又 不 
太 担 心 数据 损失 ， 或 者 使 用 浮动 链接 克隆 的 虚拟 桌面 场景 ， 没 有 数据 持久 化 的 需求 。 


2 
K 
4 


从 设计 的 角度 看 ，FTT 的 值 设 置 为 1 就 够 了 ， 除 非 负 载 或 应 用 有 特殊 的 可 用 性 需求 。 如 果 有 这 种 情况 ， 可 以 配置 一 个 单独 策 
略 来 提供 更 高 级 别 的 容错 能 力 ， 以 满足 特定 的 需求 。 这 类 策略 要 谨慎 使 用 ， 以 减少 对 磁盘 空间 利用 的 影响 。 


2. 全 闪存 纠 删 码 (RAID 5/6) 


Virtual SAN 从 6.2 版 本 开始 提供 纠 删 码 的 功能 ， 在 FTT 镜 像 (RAID 1) 的 基础 上 增加 了 RAID 5 和 RAID 6 功能 ， 以 减少 空间 


的 占用 。 在 全 闪存 配置 中 使 用 纠 删 码 ， 可 用 存储 容量 明显 增加 ， 且 仍然 能 够 保持 数据 的 弹性 和 可 用 性 。 


我 们 在 第 2 章 中 介绍 过 ，RAID 5 添加 一 个 奇偶 校 验 保 护 ，RAID 6 则 使 用 双重 奇偶 校 验 保护 。 在 Virtual SAN 集 群 中 ， 纠 删 码 
将 数据 条 带 和 校 验 位 存储 在 集群 中 各 节点 上 。 如 图 4-28 所 示 ， 采 用 RAID 5 配置 时 ， 最 少 需要 4 台 主 机 ， 纠 删 码 使 用 3+ 1 的 方式 ， 
只 有 一 台 主 机 故障 时 不 会 导致 数据 损失 。 与 FTT 的 镜像 机 制 相 比 ， 虚 拟 机 会 占用 更 少 的 空间 。 例 如 ， 一 台 虚 拟 机 带 有 20GB 的 虚 
拟 磁 盘 是 很 常见 的 ， 假 定 FTT = 1， 就 需要 40GB 的 裸 盘 容量 。 如 果 使 用 RAID 纠 删 码 ， 大 约 只 需要 27GB 的 裸 盘 容量 ， 节 省 了 309 
左右 的 空间 。 
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图 4-28 RAID 5 纠 删 码 


如 果 负 载 需 要 更 高 级 别 的 可 用 性 ， 可 以 配置 使 用 双重 校 验 位 的 RAID 6 纠 删 码 ， 如 图 4-29 所 示 。 采 用 RAID 6 配置 意味 着 可 以 
容忍 两 台 主机 故障 ， 这 与 采用 RAID 1 镜像 保护 时 设置 FTT = 2 效果 相似 。 如 果 采 用 FTT = 2 的 镜像 方式 ， 则 20GB 的 虚拟 磁盘 要 占 
用 60GB 的 磁盘 空间 。 而 采用 RAID 6 纠 删 码 时 ， 只 要 30GB 就 够 了 。 
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图 4-29 ”RAID 6 纠 删 码 


从 设计 的 角度 看 ， 校 验 数 据 分 布 于 集群 中 的 所 有 主机 ， 没 有 用 来 保存 校 验 位 的 专用 主机 。RAID 6 纠 删 码 采 用 4+2 配 置 ， 意 
味 着 这 种 类 型 的 可 用 性 架构 至 少 需要 6 台 主 机 。 


不 同 于 前 面 介 绍 过 的 去 重 和 压缩 ， 纠 删 码 一 定 可 以 节省 容量 。 对 于 那些 不 考虑 采用 精简 置 备 策略 且 数 据 已 经 被 压缩 和 去 重 的 
情况 ， 这 个 方案 可 以 很 好 地 节省 空间 耗 用 。 


这 个 Virtual SAN 的 新 特性 与 RAID 1 镜像 或 其 他 的 功能 一 样 使 用 SPBM， 可 以 在 虚拟 磁盘 级 别 或 者 虚拟 机 级 别 进行 应 用 ， 如 
图 4-30 所 示 。 


Rule-Set 1 


Selectrules specific for a datastore type. Rules can be based on data services provided by datastore or based on tags. 
The WM storage policy will match datastores that satisfy all the rules in at least one of the rule-sets. 


Rules based on data services Storage Consumption Model 
NG Et 


would consume: 


Failure tolerance method ©@ RAID-S/6 (Erasure Coding}-Capa_ | w 
D-1 (Mirroring) - Performance 150.00 GB 


Initially reserved storage space 


Storage space 


上 


0.00 日 
Rules based on tags Reserved flash space 


0.00 晶 
Add tag-based rule... 





图 4-30” 纠 删 码 Web 客 户 端 配置 


选择 RAID 技 术 时 的 主要 考虑 因素 与 使 用 传统 存储 相同 ， 你 需要 在 可 用 性 ,磁盘 空间 利用 率 和 性 能 之 间 找 到 平衡 。 确 保 
vSphere 存 储 管 理 员 可 以 为 每 一 份 负载 提供 最 合适 的 容错 方式 。 


RAID 1 镜像 虽然 空间 成 本 很 高 ， 但 是 它 可 以 提供 更 好 的 性 能 。 通 过 使 用 RAID 5 和 RAID 6 纠 删 码 ， 我 们 可 以 得 到 与 镜像 相同 
的 可 用 性 级 别 ， 并 且 可 以 比 相似 的 RAID 1 配置 节省 多 达 50% 的 存储 空间 。 


在 传统 存储 模型 下 使 用 RAID 5 和 RAID 6 技术 也 是 出 于 同样 的 考虑 ， 但 是 这 些 技 术 提 供 容错 的 方法 相 比 镜像 会 产生 额外 的 写 
开销 。 因 此 ， 纠 删 码 配置 不 支持 下 述 场景 : 


- 混合 磁盘 组 模式 


.Virtual SAN 延 伸 集 群 设计 


程 办公 室 /分 支 办 公 室 (ROBO) 设计 ， 因 为 没有 足够 的 节点 


表 4-15 和 表 4-16 列 出 了 不 同 FTT 值 的 主机 和 容量 需求 ， 以 及 这 些 配置 与 故障 场景 和 纠 删 码 之 间 的 关系 。 


表 4-15 RAID 1 容量 和 配置 需求 





SPBM FTT 数值 最 小 主机 需求 总 容量 需 100GB 磁盘 容量 占用 * 
FTT=0 : 100GB 
FTT=1 200GB 
FTT=2 300GB 
FTT=3 400GB 
mrp i 10gGB 大 和 
不 适用 不 适用 不 适用 
少 33% 
RAID 6 4+2=6 | 1.5 信 少 50% 
不 适用 不 适用 不 适用 ~ 加 不 适用 





* 集 群 没有 启用 去 重 和 压缩 功能 。 





**RAID 5 和 RAID 6 的 空间 节省 是 以 性 能 开销 和 I/ 〇 为 代价 的 。 


最 后 ， 纠 删 码 只 支持 全 闪存 配置 ， 对 I/O 性 能 的 影响 可 以 忽略 不 计 ， 因 此 只 要 应 用 对 延 时 不 是 特别 敏感 ， 就 没有 什么 影响 。 


3. 每 个 对 象 的 磁盘 条 带 数 量 


第 2 个 因素 是 每 个 对 象 的 条 带 数 量 (Number of Disk Stripes per Object) ， 也 称 为 条 带宽 度 (Stripe Width) ， 用 来 定义 
存储 对 象 的 各 个 副本 将 分 布 于 多 少 块 机 械 硬盘 或 容量 闪存 盘 上 。 在 一 些 应 用 场景 中 ， 这 个 数值 配置 得 越 高 ， 读 性 能 就 越 好 ， 但 也 
意味 着 会 占用 更 多 的 系统 资源 。 


对 于 写 性 能 来 说 ， 混 合 配置 和 全 闪存 配置 都 会 将 写 请 求 发 送 给 耐久 闪存 设备 ， 增 强 条 带宽 度 值 将 数据 存储 于 多 个 容量 设备 并 
不 会 改进 性 能 。 因 为 相关 的 策略 配置 并 不 能 保证 不 同 的 条 囊 会 使 用 不 同 的 写 缓存 内 存 设备 。 新 创建 的 条 带 会 平均 分 布 于 同一 磁盘 
组 中 的 机 械 磁 盘 上 ， 因 此 ， 它 们 会 使 用 相同 的 写 绥 存 闪存 设备 。 


增加 条 带宽 度 可 能 有 助 于 提高 写 性 能 的 唯一 途径 是 落 盘 机 制 。 例 如 ， 大 量 的 写 操 作 需要 从 写 缓 冲 写 入 容量 盘 ， 增 加 条 帝 宽 度 


对 改进 落 盘 性 能 会 有 帮助 。 


在 混合 Virtual SAN 模 型 中 ， 如 果 负 载 遇 到 大 量 的 脏 读 或 读 缓存 未 命中 ， 增 加 条 带宽 度 可 以 改进 读 性 能 。 因 为 必须 从 慢 速 的 
机 械 磁 盘 中 获取 这 些 数 据 。 例 如 ， 如 果 一 台 虚 拟 机 每 秒 执行 2000 个 读 操作 ， 闪 存 命中 率 是 90%， 那 么 每 秒 钟 就 会 有 200 个 读 操 作 
由 低速 的 机 械 盘 来 服务 。 假 设 机 械 磁盘 上 没有 其 他 的 负载 ， 且 它 的 性 能 指标 是 每 秒 150 个 读 操 作 ， 则 显然 它 不 能 服务 所 有 的 读 请 
求 。 在 这 种 情况 下 ， 如 果 增 加 条 带宽 度 ， 就 能 满足 虚拟 机 的 读 需求 了 。 


因为 全 闪存 配置 中 几乎 所 有 的 读 请 求 都 向 容量 层 发 起 ， 不 采用 混合 模式 下 的 读 缓 存 机制 ， 将 读 操作 分 散 到 多 个 容量 闪存 设 


， 会 改善 读 性 能 ， 特 别 是 那些 读 密集 应 用 。 


酚 


一 般 而 言 ， 在 大 多 数 的 设计 中 ， 采 用 缺 省 的 条 带宽 度 值 1 就 可 以 满足 负载 的 需求 了 。 只 有 当 我 们 确定 写 落 盘 或 读 缓存 未 命 
是 性 能 瓶颈 时 ， 才 需要 修改 条 带宽 度 值 。 


图 4-31 展 示 了 一 个 FTT 配 置 为 1、 条 带宽 度 配 置 为 2 的 场景 。 
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4. 对 象 空间 预 贸 


对 象 空间 预 留 (OSR-Object Space Reservation) 功能 定义 虚拟 机 的 逻辑 磁盘 存储 对 象 容量 有 多 少 比例 会 在 初始 化 时 被 保 
留 。 所 有 其 他 与 虚拟 机 相关 的 对 象 都 会 保持 为 精简 置 备 ， 但 交换 分 区 是 个 例外 ， 缺 省 会 保留 100% 的 空间 ， 除 非 启用 高 级 主机 级 
别 选 项 SwapThickProvisionedDisabled。 


在 Virtual SAN 环 境 下 ， 除 交换 分 区 外 ， 所 有 对 象 缺 省 会 以 精简 置 备 方式 部 署 ， 这 与 NFS 人 存储 解决 方案 非常 相似 。 这 条 规则 
用 来 定义 初始 化 虚拟 机 时 预 留存 储 空间 的 百分比 ， 以 防止 Virtual SAN 数 据 存 储 的 超 量 使 用 。OSR 的 值 代表 对 象 占 用 总 空间 的 百 
分 比 ， 如 图 4-32 所 示 。 


ES VSAN: Edit VM Storage Policy 


Name and desc ription Rule-Set1 
Seledrules spedcifc for a datastore type, Rules can be based on data services provided bydatastore or based on tags, 


The W stbrage policy will match datastores that satisfy ail the rules in atleast one ofthe rule-sets. 


Storage compatibility 





Rules based on data services Storage Consumption Model 


A virtual disk with size 100 GB 


Number of faiures to tolerate © Percentage ofthe logical siz ofthe eee 


storage objec that will be reserved (thick 
Object space reservation (%) 0 provisioned)upon VM provisioning. The Storage space 
restofthe storage objed is thin 
i ps ss 200.00 GB 
1 provisioned. Detaultvalue: 0%, Maxm um 
| <Add mule> value: 100% Initially reserved storage space 
0.00B 


Rules based on tags Reserved flash space 
0.008 








| dd tag-based mle-. | 





图 4-32 ”对 象 空间 预 留 功 能 


因此 ， 我 们 使 用 这 个 属性 来 指定 需要 采用 厚 置 备 的 存储 对 象 。 在 vSphere 中 有 两 种 类 型 的 厚 置 备 磁盘 : 延迟 置 零 厚 置 备 
(LZT-Lazy Zeroed Thick) ， 数 据 块 的 置 零 操作 在 第 一 次 写 入 时 完成 ; 还 有 预 置 零 厚 置 备 (EZT-Eager Zeroed Thick) ， 在 
配置 磁盘 时 就 会 将 数据 块 预先 写 入 零 。 

如 果 将 OSR 规 则 配置 为 100%， 虚 拟 机 需要 的 存储 容量 会 被 提前 预 留 ， 但 是 写 零 操作 会 延迟 到 第 一 次 写 入 时 完成 。 使 用 这 一 
功能 的 目的 是 防止 vSphere 存 储 管理 员 超 量 分 配 Virtual SAN 数 据 存储 的 空间 。OSR 的 最 小 值 是 0， 等 同 于 精简 置 备 。 


在 我 们 考虑 Virtual SAN 容 量 设计 的 时 候 ， 肯 定 希 望 使 用 Virtual SAN 数 据 人 存储 的 超 量 分 配 功能 。 毕 竟 我 们 已 经 在 传统 人 存储 上 
使 用 这 一 功能 很 多 年 了 。 但 必须 注意 的 是 ， 你 必须 采取 足够 的 监控 手段 ， 以 防止 空间 请 求 超出 物理 磁盘 容量 而 导致 存储 资源 超 量 
使 用 。 还 要 注意 各 种 功能 特性 对 可 用 存储 空间 的 影响 。 


5. 闪 人 存 读 缓存 预 留 


闪存 读 缓存 预 留 (Flash Read Cache Reservation) 定义 多 少 比例 的 逻辑 地 址 空间 需要 预 留 在 闪存 设备 上 作为 读 缓 存 使 
用 。 这 一 功能 只 适用 于 混合 磁盘 组 。 


在 Virtual SAN 混 合 模 式 中 ， 在 闪存 设备 上 为 存储 对 象 或 虚拟 磁盘 VM DK 文件 保留 的 读 缓存 数量 是 以 存储 对 象 逻 辑 大 小 的 百 
分 比 来 指定 的 ， 配 置 值 最 多 可 以 有 4 位 小 数 ， 以 提供 更 好 颗粒 度 的 配置 。 如 图 4-33 所 示 ， 有 了 如 此 明确 的 配置 方式 ，vSphere 存 
储 管理 员 甚 至 可 以 为 虚拟 机 或 虚拟 磁盘 指定 少 于 1% 的 闪存 预 留 。 


EB VSAN: Edit VM Storage Policy 【?】 


Nameanddescription Rule-Set1 
Seled rules spedifc for a datastore type. Rules can be based on dats services provided byda 包 store or based on tags. 


Rule-Set 1 The VM stbrage policy will match datastores that satisfy all the rules in atleast one ofthe rule-sets. 


Storage compatibility 
Rules based on data services | \SAN Storage Consumption Model 


Flash capacity reservedas read cache for A virtual disk with size 100 GB 
Number of faiures to toerate © the ry ot Speofiedasa would consume: 
percentage ofthe logical size ofthe object. 
Flash read cache reservation (%) ©@ Tobeused onlybraddressing read Storage space 
perfrm ance issues. Reserved flash 200.00 GB 
[ <add mlex capadty cannot be used by other objects. 
一 -| Unreserved flash is shared firyamong Iniialy reserved storage space 
allobjects. Default value: 0%, Maximum 0.00B 


value: 100%. 


Rules based on tags Reserved fash space 


0.006 


| 2dd tag-based mle-. | 





图 4-33 ”闪存 读 缓 存 预 留 功能 


例如 ， 一 台 配 有 1.5TB 虚 拟 磁 盘 的 虚拟 机 ， 通 过 存储 策略 限制 读 缓存 预 留 值 以 1% 递 增 ， 则 虚拟 机 的 读 缓存 保留 值 将 是 
15GB， 对 于 大 多 数 的 负载 而 言 ， 在 很 大 程度 上 超过 了 实际 需求 。 要 想 改变 这 种 情况 ， 我 们 可 以 使 用 用 户 自 定义 策略 ， 但 减少 缓 
存 空 间 预 留 也 意味 着 更 多 的 读 缓存 未 命中 ， 对 负载 的 性 能 会 有 负面 的 影响 。 


需要 说 明 的 是 ， 并 不 是 只 有 配置 了 这 一 策略 才能 使 虚拟 机 使 用 读 缓存 。 缺 省 情况 下 ， 在 混合 模式 的 Virtual SAN 集 群 中 ， 所 
有 虚拟 机 将 平等 地 使 用 读 缓存 容量 ， 最 多 可 使 用 闪存 设 备 容量 的 70%。 因 此 ， 这 个 数值 可 以 保留 为 缺 省 配置 ， 除 非 性 能 监控 数据 
表明 ， 通 过 这 一 策略 分 配 更 多 的 读 缓存 能 够 解决 负载 的 性 能 问题 。 


即便 这 是 事实 ，vSphere 存 储 管理 员 在 使 用 这 一 策略 时 也 要 小 心 ， 即 使 使 用 一 个 非常 小 的 百分比 数值 ， 也 可 能 导致 大 量 的 读 
缓存 预 留 ， 结 果 是 可 用 的 读 缓存 容量 很 快 被 耗 尽 ， 这 会 严重 影响 其 他 的 负载 ， 读 缓存 未 命中 的 情况 会 频繁 出 现 。 其 他 虚拟 机 的 对 
象 空间 预 留 配置 为 零 时 更 是 如 此 。 


Virtual SAN 全 闪存 配置 中 不 使 用 读 缓存 机 制 ， 所 有 的 读 请 求 直接 由 容量 盘 提 供 ， 因 此 ， 闪 存 读 缓存 预 留 功 能 只 适用 于 混合 
磁盘 组 。 


6 .强制 置 备 


强制 置 备 (Force Provisioning) 功能 用 于 强制 应 用 规则 到 虚拟 机 。 如 果 这 一 功能 的 值 不 是 零 ， 那 么 即使 为 虚拟 机 定义 的 存 
储 策略 得 不 到 满足 ， 对 象 依然 会 被 创建 到 Virtual SAN 数 据 存储 上 。 强 制 置 备 策略 允许 Virtual SAN 置 备 机 制 在 初始 部 署 虚拟 机 时 
违背 “人 允许 的 故障 数量 。”，“ 每 对 象 条 带 盘 数量 ”和 “闪存 读 缓存 预 留 ” 策 略 设置 。 但 是 ， 如 果 Virtual SAN 集 群 中 没有 足够 的 
容量 用 来 满足 至 少 一 个 副本 对 象 的 保留 需求 ， 即 使 启用 了 强制 置 备 功能 ， 虚 拟 机 的 部 署 过 程 也 会 失败 。 


如 果 部 署 的 动作 允许 发 生 ，vSphere Web 客 户 端 中 的 虚拟 机 会 被 高 亮 显示 ， 虚 拟 机 摘要 标签 页 和 虚拟 机 的 存储 策略 标签 页 
上 会 显示 不 合 规 。 如 果 Virtual SAN 数 据 存 储 能 够 满足 虚拟 机 的 存储 策略 ， 则 虚拟 机 摘要 标签 页 上 会 显示 为 合 规 。 


如 图 4-34 所 示 ， 不 论 部 署 失败 还 是 按照 强制 置 备 策略 完成 了 部 署 ， 虚 拟 机 都 会 被 显示 为 不 合 规 。 


T VM storage Policies Dv VM Storage Policics 口 
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图 4-34 ”虚拟 机 合 规 状 态 


如 果 虚 拟 机 在 不 合 规 的 情况 下 能 够 被 部 署 ， 后 续 如 果 有 更 多 的 可 用 资源 ，Virtual SAN 的 内 部 机 制 会 自动 部 署 所 需 的 组 件 ， 
以 确保 对 象 回 到 合 规 状态 。 即 使 新 增加 的 存储 资源 被 耗 光 ， 这 些 操作 也 会 发 生 。 


如 图 4-35 所 示 ， 强 制 置 备 功能 也 会 影响 vSphere 的 高 可 用 特性 、 将 Virtual SAN 集 群 置 于 维护 模式 ， 以 及 磁盘 和 磁盘 组 删除 
功能 的 使 用 。 


Name and description Rule-Set1 
Seled rules specfcfira datastore type, Rules can be based on data services provded bydatastore or based on tags, 


The Wi stbrage policy will match datastores that satisfy all the rules in atleast one ofthe rule-sets. 


Storage compatibility 
Storage Consumption Model 


A viriual disk with size 100 GB 


provisioned even ifthe policy specifed in would consume: 


the storage policyis not satisfiable with 
the resources currently available in the Storage space 
cluster. Virtual SAN will tryto bring the 200.00 GB 
[add rule> objectinto com pliiance ifand when initially reserved storage space 
resources become available. De 人 ult 
0.00B6 
Value: No. 
Rules based on tags Reserved flash space 
0.00B 


Force provisioning 息 








Add tag-based mle.. | 





图 4-35 ”强制 置 备 功能 


例如 ， 因 为 启用 了 强制 置 备 ， 一 台 虚 拟 机 处 于 不 合 规 状 态 ， 在 你 选择 进行 维护 模式 时 ， 如 果 选 择 了 “确保 可 访问 性 ”选项 ， 
则 Virtual SAN 必 须 执 行 完 全 数据 撤离 操作 ， 以 保证 虚拟 机 对 象 在 集群 可 用 性 降低 情况 下 的 可 访问 性 ， 这 会 增加 风险 。 虽 然 强制 
置 备 这 一 功能 只 适用 于 不 合 规 的 虚拟 机 对 象 ， 考 虑 启用 这 一 策略 时 也 要 格外 小 心 。 


7. 服 务 质量 


服务 质量 (QoS) 特性 在 Virtual SAN 6.2 版 本 引入 ， 为 每 个 虚拟 机 磁盘 对 象 提供 控制 力 和 可 见 性 。 


与 使 用 存储 MO 控制 类 似 ， 在 一 个 传统 存储 环境 中 ， 这 一 功能 可 以 用 来 防范 来 自 邻 居 的 影响 ， 帮 助 配置 和 控制 业务 关键 负载 
的 性 能 限制 。 就 存储 MO 控 制 而 言 ， 术 语 相 邻 干扰 (noisy neighbor) 指 的 是 一 个 或 少量 独占 可 用 MO 资源 的 负载 ， 它 们 会 对 运 
行 在 同一 存储 平台 上 的 其 他 应 用 产生 负面 的 影响 。 


当然 ， 一 个 理想 的 设计 通常 会 有 足够 的 资源 用 来 满足 应 用 程序 的 运行 。 但 是 随 着 环境 的 增长 ， 应 用 程序 的 行为 也 在 发 生 着 改 
。 因 此 , 在 Virtual SAN 的 设计 中 ， 也 许 有 必要 对 1/O 做 出 限制 ， 并 将 这 些 限制 应 用 到 指定 的 磁盘 对 象 ， 以 保证 在 存储 平台 的 
个 生命 周期 内 可 以 满足 服务 级 别 协议 的 要 求 。 


变 
整 


例如 ， 云 服务 提供 商 可 以 使 用 这 一 特性 在 一 个 拥有 存储 资源 的 集群 中 提供 差异 化 的 服务 ， 利 用 QoS 功 能 定义 服务 能 力 ， 如 一 
级 、 二 级 和 三 级 服务 ， 如 图 4-36 所 示 。 此 外 ， 那 些 在 一 个 集群 中 运行 多 种 不 同 负载 的 用 户 也 会 有 兴趣 ， 他 们 也 希望 能 够 避免 运 
行 在 一 起 的 应 用 相互 影响 。 








图 4-36 ”服务 质量 (QoS) 应 用 场景 


这 一 特性 的 其 他 使 用 场景 还 包括 高 |/O 和 低 I/O 负 载 混合 存在 的 环境 ， 会 对 低 磁盘 利用 率 的 应 用 产生 较 大 的 影响 。 或 者 是 应 
用 存在 突 发 性 的 活动 ， 例 如 一 些 季 度 性 的 业务 工作 产生 了 大 量 的 磁盘 Il/O， 导 致 其 他 使 用 相同 磁盘 资源 的 负载 在 此 期 间 得 不 到 可 
用 的 资源 ， 进 而 影响 了 服务 级 别 协议 的 保障 。 


如 图 4-37 所 示 ， 服 务 质量 通过 SPBM 规 则 来 提供 ， 从 而 将 这 一 功能 加 入 现 有 的 框架 。 此 功能 可 以 基于 VMDK 对 象 来 启用 ,或 
者 在 不 影响 正在 运行 的 应 用 程序 的 情况 下 指派 到 整个 虚拟 机 。 


Rule-Set 1 


Select /rules specihc for a datasiore pe. Rules Can be based on data servces provwded by datastore of based on ta9s. 
The WW storage pollcy will match datastiores hat satshy all he rules in at east one of he rule-s6865. 


Stor age Consumption Model 


Avirnual disk with size 100 GB 
Would tonsunme- 


Siorage Space 
200.00 G8 


Initially reserved storage space 
0o0B 

Reserved flash space 

0.00B8 





图 4-37 基于 存储 策略 管理 与 服务 质量 规则 


Virtual SAN 的 服务 质量 功能 对 读 和 写 采 用 相同 的 机 制 ， 以 32KB 数 据 块 大 小 为 标准 。 因 此 ， 在 前 面 的 例子 中 ， 如 果 规 则 指定 
的 IOPs 限 制 是 500， 这 个 限制 会 被 映射 到 32KB 的 块 大 小 ， 因 此 500IOPS 的 限制 等 同 于 250 个 64KB 数 据 块 。 


4.5.4 缺 省 的 存储 策略 


Virtual SAN 有 缺 省 的 存储 策略 ， 集 群 首次 创建 时 在 ?PBM 中 自动 建立 。 缺 省 存储 策略 会 被 指定 到 那些 没有 明确 配置 SPBM 
存储 策略 的 虚拟 机 。 


vsphere 存 储 管理 员 可 以 将 一 个 自 定义 的 虚拟 机 存储 策略 指定 为 优先 的 缺 省 策略 。 这 对 于 拥有 多 个 Virtual SAN 集 群 的 大 平 


台 来 说 很 有 必要 ， 管 理 员 可 以 为 每 个 Virtual SAN 数 据 存 储 指 定 不 同 的 缺 省 策略 。 
表 4-17 列 出 了 Virtual SAN 的 缺 省 存储 策略 。 如 果 需 要 ， 可 以 通过 esxcli vsan policy setdefault 命 令 修改 这 些 数值 。 
表 4-17 ” 缺 省 存储 策略 数值 


功 能 数 值 
可 容 急 的 故障 数量 1 
4 {rr 


和 十 42 区 有 :性 六 
每 对 象 磁 三条 市 数 


对 象 空间 预 留 0 


强制 置 备 竺 用 


4.5.5 ”应 用 评估 和 存储 策略 设计 


通常 来 说 ，Virtual SAN 存 储 策略 由 一 个 或 多 个 规则 集 组 成 ， 组 合 在 一 起 以 满足 设计 需求 。 理 解 客户 负载 的 需求 是 为 虚拟 机 
合适 策略 的 关键 。 


设计 


存储 策略 用 来 定义 虚拟 机 存储 的 特性 和 能 力 ， 以 为 负载 提供 不 同 级 别 的 服务 。 如 果 没 有 特定 的 策略 指定 到 虚拟 机 ， 则 缺 省 策 
略 将 被 应 用 ， 可 以 容忍 一 台 主 机 故障 ， 在 部 署 时 使 用 一 个 磁盘 条 带 。 要 实现 面向 虚拟 机 的 存储 策略 管理 ， 应 该 为 Virtual SAN 负 
载 创建 多 个 自 定 义 策略 ， 并 允许 管理 员 动 态 修改 正在 运行 中 虚拟 机 的 策略 。 尽 管 对 所 有 虚拟 机 使 用 缺 省 策略 是 可 接受 的 ， 但 这 并 
不 能 体现 Virtual SAN 所 提供 的 策略 驱动 存储 的 颗粒 度 。 


除非 强制 置 备 功能 被 启用 ，Virtual SAN 将 会 保证 应 用 到 虚拟 机 的 存储 策略 被 执行 。 如 果 一 个 存储 策略 在 部 署 时 不 能 被 满 
足 ， 庶 拟 机 部 署 操作 将 会 失败 。 虽 然 可 用 功能 的 任意 组 合 都 可 以 在 存储 策略 中 配置 ， 但 有 些 设置 在 全 闪存 模式 中 可 能 不 可 用 ， 比 
如 闪存 读 缓存 预 留 策略 。 要 确保 设计 和 配置 是 最 佳 的 ，vSphere 存 储 管理 员 要 充分 理解 Virtual SAN 的 可 用 性 策略 。 


Virtual SAN 强 制 的 存储 策略 可 以 保证 虚拟 机 准确 接收 到 vSphere 存 储 管理 员 定 义 的 功能 。Virtual SAN 会 验证 一 台 虚 拟 机 是 
否 满足 合 规 性 要 求 ， 内 部 机 制 会 自动 采取 动作 以 保证 指派 的 存储 策略 被 遵从 。 


Virtual SAN 存 储 策略 的 男 一 个 好 处 是 在 任何 时 间 都 可 以 修改 与 虚拟 机 相关 联 的 策略 。 如 果 在 部 署 过 程 完成 之 后 虚拟 机 中 的 
负载 或 可 用 性 需求 发 生 了 改变 ， 我 们 就 需要 在 线 修改 策略 。 这 种 改变 是 日 常 运 维 工作 的 一 部 分 ， 例 如 应 用 的 所 有 者 发 现 应 用 需要 
更 高 级 别 的 元 余 。 


存储 策略 应 该 基于 应 用 的 可 用 性 和 性 能 需求 进行 配置 。 正 是 存储 策略 这 一 特性 赋予 了 Virtual SAN 软 件 定义 存储 的 名 号 ， 
为 它 允 许 存 储 管 理 员 通过 分 配 策 略 来 调整 磁盘 的 使 用 方式 。 因 此 ， 在 所 有 Virtual SAN 设 计 中 ， 它 都 应 该 是 关键 部 分 ， 要 根据 客 
户 应 用 在 性 能 、 容 量 和 可 用 性 等 方面 的 需求 来 定义 存储 策略 。 


正如 你 所 看 到 的 ， 为 了 满足 负载 的 需求 ，SPBM 人 允许 你 根据 需要 自 定义 任何 配置 。 存 储 策略 的 定义 应 该 从 评估 业务 和 应 用 需 
求 开始 ， 这 是 架构 设计 的 正确 思路 。 也 就 是 为 创建 存储 策略 分 析 具 体 的 需求 ， 包 括 读 、 写 、 元 余 和 性 能 等 各 个 方面 。 如 果 无 法 给 
出 明确 的 需求 ， 就 使 用 一 些 通用 的 存储 策略 ， 下 面 是 一 些 参考 策略 : 


: 面向 性 能 的 存储 策略 


- 面向 容量 的 存储 策略 

“ 平衡 的 存储 策略 

这 种 方法 也 可 以 为 测试 、 开 发 和 PoC 环 境 提供 适当 的 存储 策略 ， 通 常 应 用 需求 还 没有 定义 或 者 所 有 者 也 不 完全 清楚 。 

在 做 应 用 评估 时 ， 应 该 从 评估 和 定义 应 用 的 可 用 性 需求 开始 ， 并 理解 宕 机 对 管理 层 、 应 用 所 有 者 和 最 终 用 户 所 带 来 的 影响 。 


要 确定 这 些 可 用 性 需求 ， 可 以 询问 下 面 这 些 问题 。 问 题 的 答案 可 以 帮助 vSphere 存 储 架 构 师 收集 、 定 义 和 明 确 那些 运行 在 
Virtual SAN 集 群 上 的 应 用 和 服务 的 部 署 目标 。 


. 应 用 对 于 企业 的 核心 要 务 很 关键 吗 ? 最终 用 户 工作 时 需要 哪些 应 用 和 服务 ? 
. 对 于 那些 有 疑问 的 应 用 ， 是 否 有 服务 级 别 协议 或 相似 的 合约 对 服务 级 别 做 了 定义 ? 


对 于 应 用 的 用 户 而 言 ， 服 务 的 满意 度 级 别 是 怎么 定义 的 ? 








.多 长 时 间 的 停机 〈 如 5 秒 钟 、5 分 钟 或 1 小 时 ) 对 于 业务 而 言 是 重大 事件 并 不 可 接受 ?峰值 和 非 峰值 有 什么 区 别 ? 如 果 可 用 
性 由 客户 来 衡量 ， 如 何 进行 衡量 ? 
此 外 ， 业 务 有 每 周 7 天 、 每 天 24 小 时 的 可 用 性 需求 吗 ? 或 者 有 工作 计划 吗 ? 如 工作 日 的 上 午 9 点 到 下 午 5 点 。 你 所 关注 的 服务 
或 应 用 有 相同 的 可 用 性 需求 吗 ? 还 是 其 中 的 一 些 比 其 他 的 更 重要 ? 


工作 日 、 工 作 时 间 和 可 用 性 需求 通常 可 以 从 用 户 的 领导 、 应 用 所 有 者 和 业务 经 理 那里 得 到 。 例 如 ， 表 4-18 提 供 了 一 个 样本 
商业 应 用 列表 ， 附 带 有 用 户 的 可 用 性 需求 和 常见 的 工作 时 间 。 这 些 需求 对 于 策略 的 建立 非常 重要 ， 以 保证 应 用 在 无 需 时 间 段 的 停 
机 时 间 不 会 对 应 用 的 服务 级 别 协议 产生 负面 的 影响 。 


表 4-18 应 用 在 线 时 间 需 求 示例 


商业 应 用 工作 日 可 用 性 需求 

客户 跟踪 系统 (CRM ) 7 买 7 一 19 时 99.999% 
文档 管理 系统 7 天 99.999% 
Microsoft SharePoint (协作 ) 7 99.99% 
Microsoft Exchange (邮件 和 协作 ) 7 天 99.999% 
Microsoft Lync (协作 ) 7 买 99.99% 
数字 影像 系统 5 天 8 一 18 时 99.9% 
文件 归档 系统 5 天 99.9% 
面向 公众 的 Web 服务 7 天 99.999% 


建立 和 理解 应 用 的 依赖 关系 也 很 重要 。 前 面 表格 中 所 列 应 用 大 多 包含 数据 库 、 应 用 层 软件 、Web 服 务 器 、 负 载 均 衡器 和 防 
火 墙 等 组 件 。 要 达到 客户 业务 所 需 的 可 用 性 级 别 ， 在 设计 中 可 能 要 采用 多 个 Virtual SAN 集 群 和 存储 策略 ， 以 满足 不 同 的 性 能 和 
可 用 性 需求 。 


还 有 一 些 在 设计 Virtual SAN 架 构 时 需要 注意 的 关键 因素 : 


. 应 用 负载 会 随 着 时 间或 业务 周期 (例如 从 上 午 9 时 到 下 午 5 时 、 工 作 日 、 每 月 或 每 个 季度 ) 发 生变 化 吗 ? 


. 有 多 少 台 vSphere 主 机 可 用 ? 这 些 应 用 使 用 的 是 什么 类 型 的 存储 ? 

. 为 应 用 或 服务 实现 灾难 恢复 方案 对 于 企业 来 说 重要 吗 ? 

. 在 恢复 站 点 有 什么 样 的 基础 架构 可 用 来 支持 负载 ? 

. 恢复 站 点 是 冷 备 还 是 热 备 ?或 者 是 用 来 支持 其 他 业务 部 分 的 区 域 数 据 中 心 ? 
. 有 什么 存储 复制 技术 可 用 吗 ? 

. 为 了 确保 应 用 切换 到 恢复 站 点 后 用 户 可 以 正常 访问 ， 需 要 执行 哪些 步骤 ? 


“ 将 一 些 Virtual SAN 集 群 节点 放置 在 单独 的 站 点 、 临 近 的 数据 中 心 或 数据 中 心 分 区 ， 在 主 站 点 发 生 严 重 问题 时 提供 灾难 避免 


或 灾难 恢复 能 力 是 否 可 行 ? 
“ 应 用 负载 或 每 个 虚拟 磁盘 的 I/O 〇 性 能 和 特性 如 何 ? 
- 负载 有 什么 特定 的 最 佳 实践 吗 ? 如 块 大 小 。 


仔细 分 析 所 有 的 可 用 性 是 一 项 重要 的 工作 ， 要 仔细 分 析 和 理解 Virtual SAN 设 计 对 业务 应 用 和 服务 产生 的 影响 。 图 4-38 将 你 
所 学 到 的 SPBM 相 关内 容 整 合 在 了 一 起 ， 并 列举 了 vSphere 存 储 策略 反映 真实 世界 应 用 部 署 场景 的 关键 设计 因素 。 


虽然 这 些 策略 可 以 在 虚拟 机 级 别 或 单个 虚拟 磁盘 级 别 进行 指派 ， 但 根据 对 象 类 型 的 不 同 ， 应 用 的 特性 也 会 不 同 。 表 4-19 列 
出 了 缺 省 的 策略 选项 及 其 适用 的 Virtual SAN 对 象 。 


可 客 忍 的 故障 数量 每 个 对 象 的 磁盘 条 带 数 量 对 象 空间 预 留 ( % ) 闪存 读 缓存 预 留 ( % ) 强制 置 备 服务 质量 限制 
(RAID 1 一 一 镜像 ) ( RAID 0 一 一 条 带 ) 






应用 场景 罗 厚 置 备 /容量 比例 性 能 覃 盖 策 除 性 能 


缺 省 值 为 1 
最 大 值 为 3 
和 


缺 省 值 为 1 缺 省 值 为 0 缺 省 值 为 0 IOPS 限 制 ， 对 象 不 能 超出 策略 
指定 的 IOPS 数 
最 大 值 为 12 最 大 值 为 1009% 最 大 值 为 100% 禁用 /启用 可 值 





配置 值 





则 最 大 值 为 
此 项 配置 为 RAID 1 标准 镜像 此 项 配置 为 标准 RAID 0 条 各 ， 缺 省 用 于 读 缓 存 的 闪存 空间 
当 有 较 多 的 尾数 据 或 读 绥 存 未 此 项 配置 定义 在 置 备 虚拟 机 小 强制 年 备 功能 允许 在 可 用 次 
设计 因素 
陵 。 则 雪 要 在 袖 盘 上 之 前 应 急 新 建 虚拟 机 时 有 用 。 
新 
在 必要 时 使 用 。 缺 省 情况 下 ， 
性 能 ， 但 同时 也 会 消耗 更 多 的 行 的 磁盘 增长 操作 未 占用 的 闪存 空间 将 被 所 有 对 存放 相让 和 的 折 六 
的 磁盘 容量 也 就 越 多 系统 资源 象 平等 共 训 用 这 一 功能 可 以 有 效 消除 负载 
之 间 的 影响 
除非 明确 指出 虚拟 机 有 特殊 此 项 设置 应 读 保 持 为 1， 除非 这 一 功能 性 该 采用 缺 省 信 0， 这 一 功能 应 该 采用 缺 省 什 0， 这 一 功能 应 该 保持 关闭 ， 仅 在 多 租户 环境 下 可 以 有 效 限 
建议 的 可 用 性 需求 ， 否 则 这 项 参数 读 绥 存 层 无 法 满足 虚拟 机 的 读 除非 虚拟 机 确实 需要 采用 厚 置 除非 虚拟 机 确实 需要 占用 更 多 用 于 暂 时 无 法 满足 合 规 性 要 求 制 虐 披 机 的 资源 使 用 


应 该 采用 缺 省 值 1 WO 需求 备 的 方式 部 署 的 闪存 空间 以 解决 读 性 能 问题 的 情况 下 创建 虚拟 机 时 使 用 


图 4-38 ”存储 功能 和 建议 的 最 佳 实践 
表 4-19 ”对象 策略 缺 省 值 


对 和 象 策略 注释 
虚拟 机 命名 空间 / 虚拟 机 根 目录 可 配置 ， 但 不 建议 更 改 
交换 分 区 容错 值 为 1 可 配置 ， 但 不 建议 更 改 
虚拟 磁盘 (VMDK) 用 户 配置 的 存储 策略 “| ”可 以 是 系统 上 配置 的 任何 存储 策略 
虚拟 磁盘 快照 / 增 量 使 用 虚拟 磁盘 策略 缺 省 情况 下 与 虚拟 磁盘 策略 相同 ， 不 建议 更 改 





虚拟 机 命名 空间 和 交换 分 区 对 象 类 型 的 策略 缺 省 值 是 由 Virtual SAN 系 统 设 置 的 ， 并 且 不 可 配置 ， 这 是 为 了 保证 对 这 些 关 键 
虚拟 机 组 件 的 保护 在 整个 平台 上 一 致 。 


如 果 没 有 用 户 定 义 策略 应 用 于 这 些 对 象 ， 虚 拟 磁盘 和 虚拟 磁盘 快照 将 采用 缺 省 存储 策略 ， 容 错 值 等 于 1， 每 对 象 条 带 磁 盘 的 


数值 也 等 于 1。 


4.6 Virtual SAN 数 据 存储 设计 与 容量 规划 


vSphere 架 构 师 数 年 来 一 直 根 据 CPU 和 内 存 的 利用 率 以 及 物理 到 虚拟 CPU 的 整合 比 来 设计 计算 集群 。 目 标 一 直 是 找到 最 佳 配 
置 (sweet spot) ， 使 硬件 能 够 被 充分 利用 ， 达 到 最 大 整合 比 ， 平 衡 CPU、 内 存 和 成 本 。 但 如 果 设 计 的 集群 中 包含 Virtual SAN 
功能 ， 就 必须 着 眼 于 整体 ， 通 盘 考虑 了 ， 要 同时 对 主机 和 集群 的 容量 进行 计算 。 


对 Virtual SAN 数 据 存储 做 设计 和 容量 规划 时 的 主要 准则 之 一 是 优化 存储 以 在 各 个 卷 之 间 实 现 一 致 的 性 能 。Virtual SAN 混 合 
磁盘 组 通过 混合 分 层 架 构 来 最 小 化 性 能 不 一 致 的 风险 ， 将 闪存 加 速 层 作为 读 缓冲 和 写 缓存 来 使 用 ， 再 结合 机 械 磁 盘 来 提供 容量 。 
基于 这 种 架构 ， 并 且 采 用 正确 设计 的 Virtual SAN 方 案 ， 主 要 的 读 写 操作 都 是 通过 闪存 设备 来 实现 的 ， 可 以 在 vSphere 环 境 中 提 
供 极 好 的 性 能 。 即 使 这 种 环境 中 存在 大 量 的 随机 I/O。Virtual SAN 的 架构 还 可 以 帮助 最 小 化 MO 撑 拌 机 效应 (MO blender 
effect) ， 这 在 虚拟 化 环境 中 很 常见 。 


如 图 4-39 所 示 ， 当 多 个 虚拟 机 同时 向 存储 发 送 VO 时 ，MO 撑 拌 机 效应 就 形成 了 。 这 通常 会 导致 VO 高 度 随 机 分 布 ， 在 传统 共 
享 人 存储 系统 中 ， 会 大 量 增 加 延 时 ， 因 为 数据 需要 随机 地 写 入 磁盘 中 的 相应 区 域 。 随 着 同时 写 入 数据 虚拟 机 数量 的 增加 ，MO 搅 拌 
机 效应 会 更 加 明显 ， 数 据 碎 片 会 增多 ， 机 械 磁盘 的 读 写 臂 要 不 断 地 移动 ， 这 会 带 来 延 时 。 部 署 的 虚拟 机 越 多 ， 数 据 量 越 大 ， 问 题 
就 越 严重 。IMO 请 求 的 响应 速度 会 变 慢 ， 人 存储 层 出 现 性 能 瓶颈 ， 应 用 程序 的 响应 也 变 慢 了 。 


但 是 在 Virtual SAN 环 境 中 ， 这 种 问题 不 人 存在， 虚拟 机 的 写 请 求 面向 用 来 做 缓冲 的 闪存 设备 。 混 合 模式 下 ， 当 数据 需要 从 闪 
存 加 速 层 转 储 到 机 械 盘 时 ， 转 储 操作 会 按照 连续 MO 进行 ，Virtual SAN 可 以 有 效 利用 底层 机 械 磁 盘 的 连续 |/O 能 力 。 


第 2 个 设计 准则 是 ， 通 过 优化 Virtual SAN， 以 在 不 同 的 分 布 式 数据 存储 之 间 实 现 一 致 的 总 体 性 能 ,这样 的 架构 不 依赖 数据 
本 地 化 来 保证 性 能 。 这 些 内 容 在 本 章 前 面 数据 本 地 化 和 缓存 算法 的 部 分 有 更 多 介绍 。 


Virtual SAN 网 络 
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图 4-39 I/O 搅 拌 机 效应 


4.6.1 ”每 集群 主机 数量 


Virtual SAN 目 前 支持 每 集群 最 少 3 台 最 多 64 台 主机 ， 混 合 和 全 闪存 配置 都 是 如 此 ， 在 ROBO 设 计 中 还 支持 采用 外 部 见证 的 


尽管 Virtual SAN 支 持 三 节点 集群 ， 通 常 不 建议 将 这 种 配置 用 于 生产 环境 ， 支 持 业务 关键 负载 。 因 为 三 节点 集群 有 元 余 和 可 
用 性 限制 ， 而 这 种 限制 通过 在 集群 中 加 入 第 4 个 节点 可 以 消除 。 


例如 ， 对 于 三 节点 集群 配置 ， 当 FTT 值 为 1 时 ， 数 据 组 件 和 见证 都 有 两 个 副本 ， 它 们 必须 存在 于 集群 中 不 同 的 节点 。 三 节点 


No 一 一 AAA 


配置 只 能 容忍 一 台 主 机 出 现 故 障 ， 而 且 这 种 情况 发 生 时 ，Virtual SAN 将 不 能 重 构 数据 组 件 ， 也 不 能 再 部 署 新 的 虚拟 机 。 此 外 ， 
在 这 种 配置 中 ， 一 是 有 故障 发 生 ， 在 故障 组 件 恢复 之 前 ，Virtual SAN 将 不 能 重新 保护 虚拟 机 对 象 ， 而 且 三 节点 集群 在 进入 维护 
模式 时 ， 不 能 执行 完整 数据 迁移 以 解放 主机 实施 维护 操作 。 因 此 我 们 强烈 建议 ， 在 关键 业务 环境 中 采用 至 少 4 台 或 更 多 主机 ， 以 
最 大 化 Virtual SAN 集 群 的 可 用 性 和 灵活 性 。 


要 判断 多 少 台 主机 能 够 满足 客户 的 存储 需求 ， 你 必须 考虑 下 面 这 些 关 键 的 设计 因素 : 
Virtual SAN 数 据 存储 的 可 用 空间 数量 


.Virtual SAN 人 和 集群 设 计 能 够 承受 的 主机 或 硬件 故障 数量 


量 ， 即 水 平 扩展 策略 ， 意 味 着 更 高 的 硬件 成 本 ; 但 减少 vSphere 主 机 数量 并 增加 磁盘 组 和 每 台 主 机 的 可 用 资源 数量 ， 则 为 垂直 扩 
展 策略 ， 可 能 会 导致 资源 的 可 用 性 降低 。 


4.6.2 ”存储 能 力 
之 前 讨论 过 的 一 些 存储 策略 功能 会 对 Virtual SAN 数 据 存储 的 容量 规划 产生 很 大 的 影响 ， 而 FTT 是 影响 最 大 的 一 个 。 精 确 计 
算 容量 是 很 重要 的 ， 你 必须 清楚 这 些 存 储 功能 对 存储 容量 消耗 所 产生 的 影响 。 


此 外 ， 一 些 SPBM 功 能 ， 如 容错 数量 、 每 对 象 磁盘 条 带 数量 和 对 象 空间 预 留 也 会 影响 Virtual SAN 数 据 存储 设计 ， 因 此 在 
Virtual SAN 数 据 存 储 容量 规划 环节 中 必须 认真 考虑 。 


1. 容 错 功 能 对 容量 规划 的 影响 


容错 数量 功能 提供 可 用 性 和 元 余 ， 可 以 在 虚拟 机 或 虚拟 磁盘 级 别 指定 。 这 一 策略 对 Virtual SAN 数 据 存储 容量 规划 的 影响 需 
要 在 设计 和 计算 存储 容量 需求 时 加 以 考虑 。 如 果 FTT 的 值 配 置 为 3， 则 虚拟 机 所 需要 存储 空间 需求 将 是 原始 磁盘 容量 的 4 售 。 


如 果 FTT 的 值 是 !， 虚 拟 机 或 虚拟 磁盘 会 在 集群 的 分 布 式 数 据 存储 中 创建 两 个 副本 镜像 ， 如 果 该 数值 增加 到 2， 集 群 内 将 会 出 
现 3 个 副本 。 同 理 ，FTT 值 为 3 就 意味 着 Virtual SAN 数 据 存储 中 将 有 4 个 副本 。 


我 们 在 本 章 的 前 面 提 到 过 ， 可 以 利用 全 闪存 模式 下 的 纠 删 码 (RAID 5 或 RAID 6) 来 减少 FTT 功 能 所 导致 的 容量 减少 。 相 对 
于 RAID 1 镜像 设计 ， 空 间 节 省 可 以 高 达 50%。 


尽管 全 闪存 模式 下 的 纠 删 码 配置 可 以 节省 空间 ， 我 们 还 是 要 清楚 ，Virtual SAN 存 储 策略 中 的 FTT 值 对 容量 规划 产生 的 影响 
最 大 。 对 于 如 何 实现 这 些 功能 并 没有 明确 的 指南 ， 应 该 基于 负载 的 可 用 性 需求 ， 或 者 根据 客户 或 应 用 所 有 者 ， 组 成 Virtual SAN 


集群 的 主机 数量 ， 在 充分 理解 这 些 功 能 对 硬件 成 本 影响 的 前 提 下 修改 这 些 缺 省 值 。 
2. 每 对 象 磁盘 条 带 数量 对 容量 规划 的 影响 
谈 到 每 对 象 的 磁盘 条 带 数量 ， 做 Virtual SAN 数 据 存 储 容量 规划 时 有 两 点 需要 考虑 。 


1) 确保 每 台 主 机 和 整个 Virtual SAN 集 群 中 有 足够 的 物理 磁盘 设备 能 够 满足 部 署 过 程 中 创建 更 多 条 带 的 需要 ， 特 别 是 在 同 
一 存储 策略 中 也 采用 了 高 于 缺 省 值 的 FTT 功 能 的 情况 下 。 


2) 第 2 个 设计 因素 是 确保 选择 的 条 带宽 度 不 会 极 大 地 增加 主机 组 件 的 数量 ， 在 Virtual SAN 6、Virtual SAN 6.1 和 Virtual 
SAN 6.2 版 本 中 ， 最 大 值 是 9000。 


上 述 两 项 都 是 在 Virtual SAN 数 据 存储 容量 规划 过 程 中 需要 考虑 的 因素 。 但 是 因为 在 Virtual SAN 6 中 引入 了 VirstoFS 的 磁盘 
格式 ， 组 件数 量 增加 了 很 多 ， 现 在 它 基 本 上 不 会 是 一 个 设计 约束 了 。 
3. 对 象 空间 预 留 对 容量 规划 的 影响 


对 象 空间 预 留 (Object Space Reservation) 功能 用 来 指定 Virtual SAN 数 据 存储 中 哪些 存储 对 象 应 该 采用 厚 置 备 。 如 果 
OSR 规 则 设置 为 100%， 会 预先 分 配 ， 虚 拟 机 的 人 存储 需求 目的 是 防止 vyphere 存 储 管理 员 过 量 使 用 Virtual SAN 数 据 人 存储 的 空间 。 


最 小 的 OSR 值 是 0%， 意 味 着 将 采用 精简 置 备 。 最 大 值 是 100%， 会 预先 分 配 所 有 磁盘 容量 。 如 果 设计 中 采用 了 这 一 功 
能 ，Virtual SAN 数 据 存储 容量 规划 必须 考虑 到 增加 的 容量 需求 。 


4.6.3 ”配置 多 个 磁盘 组 


磁盘 组 将 磁盘 资源 池 化 为 管理 单元 ， 在 Virtual SAN 混 合 模式 下 通过 组 合 缓存 闪存 设备 和 机 械 磁 盘 来 创建 。 在 全 闪存 配置 
中 ， 耐 久 型 闪存 设备 和 面向 性 能 的 闪存 设备 用 于 创建 相似 的 二 层 结 构 。 在 两 种 情况 下 ， 顶 层 闪存 设备 都 为 磁盘 组 提供 一 个 分 布 式 
的 闪存 层 ， 而 容量 设备 都 用 来 为 Virtual SAN 数 据 存储 贡献 容量 。 


如 图 4-40 所 示 ， 每 台 构成 Virtual SAN 集 群 的 vSphere 主 机 可 以 包括 5 个 独立 的 磁盘 组 ， 每 一 个 磁盘 组 可 以 采用 相同 或 不 同 的 
配置 。 我 们 强烈 建议 在 集群 范围 内 采用 相同 的 磁盘 组 配置 ， 采 用 相同 的 硬件 类 型 ， 通 过 标准 的 、 可 重复 的 构建 块 来 组 建 Virtual 
SAN 集 群 。 
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图 4-40 ”多 个 磁盘 组 构建 块 配置 
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设计 Virtual SAN 磁 盘 组 时 ，vSphere 存 储 架 构 师 需要 根据 负载 的 性 能 需求 来 计算 闪存 缓存 设备 和 机 械 盘 或 容量 闪存 设备 之 
间 的 比率 。 在 混合 配置 模式 下 ， 闪 存 与 容量 存储 的 比率 越 高 ， 每 对 象 缓存 预 留 的 容量 越 大 ， 总 体 性 能 就 越 好 。 


考虑 采用 多 个 Virtual SAN 磁 盘 组 时 还 有 一 个 设计 因素 ， 即 定义 故障 域 的 能 力 ， 多 个 磁盘 组 可 以 减少 故障 域 的 大 小 。 对 于 混 
合 模 式 和 全 闪存 模式 而 言 ， 如 果 基 于 闪存 的 缓存 设备 故障 ， 磁 盘 组 中 的 所 有 容量 盘 将 变 得 不 可 用 ， 受 影响 的 磁盘 组 所 提供 的 存储 
容量 将 不 可 访问 。 采 用 多 个 小 磁盘 组 的 设计 ， 相 对 于 采用 一 个 大 磁盘 组 的 设计 ， 不 但 可 够 改进 性 能 ， 也 能 够 将 故障 域 限制 在 受 影 
响 磁盘 组 中 的 少数 容量 盘 。 


对 于 一 个 分 布 式 数据 人 存储 架构 ， 这 是 一 项 关键 的 设计 因素 ， 如 果 Virtual SAN 集 群 没有 为 那些 受 影响 的 负载 提供 足够 的 存储 
容量 ， 一 个 磁盘 组 故障 会 影响 很 多 虚拟 机 。 蔡 换 掉 故障 硬件 后 ， 修 复 那 些 受 影响 的 虚拟 机 会 耗费 大 量 的 时 间 ， 当 设计 中 采用 
1Gb/s 的 网 络 时 更 是 如 此 。 


4.64 ”耐久 型 内 存 设备 容量 规划 


在 Virtual SAN 混 合 模式 中 ， 每 个 磁盘 组 中 有 30% 的 闪存 设备 容量 用 作 写 缓存 。 如 前 文 所 述 ， 这 样 做 的 目的 是 保证 每 个 写 操 
作 先 落 到 闪存 设备 ， 多 个 闪存 层 设备 可 以 在 数据 存储 中 为 对 象 存 储 多 个 副本 。30% 的 数值 并 不 是 固定 不 变 的 ， 我 们 可 以 修改 这 个 
参数 ， 但 为 了 保证 虚拟 机 数据 的 可 用 性 ， 我 们 不 建议 你 修改 这 个 数值 ， 除 非 VMware 的 技术 支持 人 员 在 解决 性 能 问题 时 明确 建议 
你 做 出 修改 。 


在 混合 模式 中 ， 余 下 的 70% 空 间作 为 读 缓存 使 用 。 但 是 ，Virtual SAN 数 据 存储 中 的 数据 块 不 会 被 多 次 放 入 读 缓存 。 与 写 组 
存 机 制 不 同 ，Virtual SAN 保 持 相 同 百分比 的 耐久 型 闪存 设备 作为 对 象 的 读 缓存 使 用 ， 而 不 管 它 存 在 多 少 个 副本 。 因 此 ， 通 过 
FTT 功 能 增加 对 象 的 可 用 性 ， 并 不 会 增加 对 象 对 读 缓存 容量 的 占用 。 


在 全 闪存 模式 下 ， 全 部 的 耐久 型 设备 空间 都 用 作 写 缓存 ， 所 有 的 读 请 求 直 接 发 到 容量 闪存 设备 。 


无 论 是 混合 模式 还 是 全 闪存 模式 ， 闪 存 容量 规划 的 起 始点 都 应 该 是 Virtual SAN 数 据 存 储 容量 的 10%， 但 这 只 是 一 个 起 始 
点 ， 最 佳 的 百分比 取决 于 实际 的 虚拟 机 存储 负载 特性 ， 具 体 而 言 ， 就 是 应 用 的 工作 数据 集 大 小 ， 以 及 那些 由 应 用 的 所 有 者 定义 
的 、 负 载 特有 的 读 写 请 求 。 


耐久 型 闪存 设备 容量 规划 示例 


在 本 例 中 ，vSphere 管 理 员 需 要 为 一 个 新 项 目 部 署 250 台 虚拟 机 ， 每 台 虚 拟 机 配 有 一 块 100GB 精 简 置 备 的 虚拟 磁盘 。 但 业务 
人 员 预 测 ， 在 长 达 36 个 月 的 项 目 周期 中 ， 每 台 虚 拟 机 实际 消耗 的 存储 容量 会 达到 40GB。 


表 4-20 描 述 了 这 一 示例 的 容量 规划 场景 ， 基 于 Virtual SAN 数 据 人 存储 的 预计 总 容量 ， 按 照 VMware 所 建议 的 10% 来 计算 。 


表 4-20 ”闪存 容量 规划 示例 


客户 需求 数值 

预 估 的 虚拟 机 空间 40GB 

虚拟 机 的 数量 250 

预 估 的 总 容量 40GB X250=10 000GB 王 10TB 
了 耐久 型 内 存 设备 容量 目标 (%) 10 

总 的 耐久 型 内 存 设备 需求 10TB X 0.10=1TB 





在 本 例 中 ， 总 的 预期 存储 消耗 ， 在 没有 对 象 副本 的 情况 下 等 于 250x40GB = 10TB。 如 果 指 派 到 新 虚拟 机 的 存储 策略 为 了 提 
升 可 用 性 将 FTT 设 置 为 1， 每 个 虚拟 机 实例 会 创建 两 个 副本 ， 包 括 副本 在 内 ， 项 目 消耗 的 存储 空间 将 超过 20TB。 


如 表 4-20 所 示 ， 项 目 需要 的 闪存 空间 等 于 消耗 容量 的 10%， 不 考虑 副本 ， 等 于 10TB 的 10%， 即 1TB。 因 此 ， 对 于 这 个 项 
目 ， 在 部 署 虚拟 机 的 集群 中 至 少 需要 配置 1TB 的 耐久 性 闪存 。 


4.6.5 对象、 组 件 和 见证 容量 规划 
如 本 章 前 文 所 述 ，Virtual SAN 数 据 存储 并 非 基 于 传统 的 VM FS 结构 ， 而 是 基于 对 象 存储 文件 系统 (OSFS) 。 在 一 个 集群 中 
只 创建 一 个 Virtual SAN 数 据 存储 ， 聚 合集 群 中 多 台 主机 上 面 的 所 有 存储 组 件 。 然 后 使 用 OSFS 挂 接 为 单一 的 分 布 式 数据 存储 。 


Virtual SAN 以 名 为 对 象 (object) 的 灵活 数据 容器 在 分 布 式 数据 存储 中 存储 和 管理 数据 。 对 象 可 以 理解 为 一 个 逻辑 卷 ， 它 
的 数据 和 元 数据 分 布 在 一 些 组 件 中 ， 在 整个 Virtual SAN 集 群 中 都 可 以 访问 。 在 vSphere 存 储 栈 中 ， 这 些 对 象 显示 为 设备 。 


对 象 也 可 以 看 成 一 个 卷 (volume) ，Amazon 的 EC2 和 Openstack 使 用 相同 的 术语 。Virtual SAN 对 象 是 多 变 的 
(mutable) ， 它 们 的 区 域 在 创建 之 后 可 以 被 改变 。 不 同 于 Amazon S3 或 Microsoft Azure 中 的 Blob 存 储 对 象 ， 它 们 是 强 一 致 
对 象 。 在 启用 了 Virtual SAN 的 集群 中 ， 唯 一 支持 的 对 象 类 型 是 构成 虚拟 机 的 文件 ， 如 VMDK。Virtual SAN 有 能 力 在 一 个 集群 
中 存储 和 管理 几 万 个 这 样 的 对 象 。 


对 于 每 一 个 部 署 在 Virtual SAN 数 据 存储 中 的 虚拟 机 ，Virtual SAN 会 为 它 的 每 一 块 虚拟 磁盘 创建 一 个 对 象 ， 再 加 上 虚拟 机 命 
名 空间 这 个 容器 对 象 ， 该 命名 空间 用 以 容纳 VMFS 卷 和 存储 与 虚拟 机 相关 的 所 有 元 数据 文件 。Virtual SAN 单 独 部 署 和 管理 每 一 
个 对 象 。 例 如 ， 在 创建 虚拟 磁盘 的 对 象 之 前 ，Virtual SAN 会 考虑 下 述 内 容 : 


" VSphere 存 储 管理 员 为 特定 的 虚拟 磁盘 指定 的 SPBM 策 略 。 
. 集群 资源 以 及 它们 在 部 署 时 的 利用 率 。 


然后 ， 基 于 这 些 考虑 ，Virtual SAN 再 决定 如 何在 集群 中 分 布 这 些 对 象 组 件 。 


1. 对 象 


每 一 个 存在 于 数据 存储 之 上 的 Virtual SAN 对 象 都 由 多 个 组 件 构成 ， 这 些 组 件 分 布 于 集群 主机 上 配置 的 磁盘 组 中 。 每 个 对 象 
由 SPBM 机 制 来 提供 性 能 和 可 用 性 参数 。 如 表 4-21 所 示 ，Virtual SAN 中 存在 4 种 对 象 类 型 。 


表 4-21 Virtual SAN 对 象 类 型 


对 象 类 型 描 述 
用 于 存放 所 有 虚拟 机 配置 文件 (包括 .vmx 文件 、 日 志文 件 和 其 他 ) 的 


位 置 或 容 融 


虚拟 机 命名 空间 / 虚拟 机 根 目录 


交换 分 区 唯一 一 个 在 虚拟 机 开机 时 创建 、 在 虚拟 机 关机 时 删除 的 对 象 类 型 

虚拟 磁盘 (VMDK ) 虚拟 机 的 磁盘 文件 

虚拟 磁盘 快照 / 增 量 唯一 的 存储 对 象 ， 当 管理 员 或 备份 解决 方案 创建 快照 时 被 创建 。 如 果 
ES MA 选中 快照 内 存 选 项 ， 在 创建 或 挂 起 虚拟 机 时 会 同时 创建 内 存 对 象 


2. 组 件 


Virtual SAN 对 象 由 分 布 于 集群 中 多 台 主 机 上 的 组 件 构成 ， 组 件 跨 磁盘 组 存储 ， 以 提供 更 好 的 可 用 性 。 每 个 组 件 自 动 从 磁盘 
组 的 闪存 设备 中 分 得 相应 的 缓冲 容量 ， 具 体 取 决 于 磁盘 组 类 型 (混合 或 全 闪存 ) 。Virtual SAN 6.0、Virtual SAN 6.1 和 Virtual 
SAN 6.2 支 持 每 台 主机 最 多 安装 9000 个 组 件 。 


超过 255GB 的 对 象 会 自动 分 割 成 多 个 组 件 ， 可 以 通过 修改 参数 VSAN.ClomMax-ComponentSizeGB 来 进行 配置 。 你 可 能 需 
要 减 小 这 个 值 以 保证 它 不 会 超过 设计 中 所 使 用 的 最 小 容量 盘 的 80%。 例 如 ， 如 果 Virtual SAN 磁 盘 组 中 的 最 小 容量 磁盘 是 
200GB， 你 预期 VMDK 文 件 一 类 的 虚拟 机 对 象 可 能 会 增长 到 400GB， 就 应 该 配置 VSAN.ClomMax-ComponentSizeGB 的 值 为 
160GB (200GB 的 80%) ， 这 项 配置 对 于 全 闪存 模式 来 说 特别 重要 ， 通 常 使 用 的 闪存 盘 容量 要 比 机 械 磁 盘 小 得 多 。 


另外 ， 如 果 每 对 象 磁盘 条 带 数 量 增加 了 超过 缺 省 值 1， 则 每 一 个 条 带 都 是 一 个 单独 的 组 件 。 
3. 见 证 元 数据 


虽然 是 次 要 因素 ， 但 我 们 在 计算 组 件 大 小 时 仍 需 要 考量 : 对 于 每 一 个 创建 于 Virtual SAN 数 据 人 存储 的 组 件 ， 它 的 见证 元 数据 
要 占用 额外 的 2MB 磁 盘 容 量 。 见 证 (Witness) 是 只 包含 对 象 元 数据 的 组 件 ， 它 是 每 个 对 象 的 重要 组 成 部 分 ， 见 证 组 件 是 仲裁 
者 ， 可 以 帮助 Virtual SAN 集 群 在 脑 裂 的 场景 下 做 出 可 用 性 决策 。 因 为 Virtual SAN 见 证 组 件 占用 的 存储 空间 很 小 ， 所 以 通常 在 容 
量 设 计时 无 需 考虑 。 


4.6.6 ”数据 仔 储 容量 盘 容 量规 划 
取决 于 需求 和 其 他 因素 ，Virtual SAN 容 量 计 算 可 以 有 很 多 方法 ， 如 设计 中 采用 哪些 SPBM 功 能 ， 这 会 对 容量 需求 产生 较 大 
影响 ， 可 能 需要 配置 额外 的 主机 硬件 和 磁盘 组 。 


VMware 在 官网 提供 了 容量 和 总 体 拥有 成 本 (TCO) 计算 工具 ， 基 于 一 些 参数 ， 如 虚拟 机 数量 、 虚 拟 磁 盘 的 容量 和 数量 、 
快照 数量 及 读 写 |/O 比 率 ， 来 估计 容量 和 成 本 ， 以 帮助 减少 计算 Virtual SAN 数 据 存储 容量 的 复杂 度 。 


然而 ， 充 分 理解 如 何 计算 还 是 很 重要 ， 毕 竟 架 构 师 要 负责 向 领导 证 明 人 存储 成 本 的 合理 性 。 因 此 你 必须 能 够 回答 诸如 “我 们 为 
什么 又 要 买 那么 多 磁盘 ? ”一 类 的 问题 ， 以 使 项 目 获得 批准 。 简 单 答复 说 “VMware 的 计算 工具 是 这 样 说 的 ”可 能 并 不 充分 。 


另外 ， 即 使 VMware 的 在 线 工具 能 够 计算 出 最 佳 的 Virtual SAN 配 置 ， 有 时 厂商 硬件 的 限制 要 求 我 们 基于 某 些 设计 因素 对 计 
算 结 果 进 行 修改 。 


由 VMware 在 线 工 具 计算 出 的 典型 容量 规划 示例 ， 如 图 4-41 所 示 。 


在 我 们 讨论 手工 计算 Virtual SAN 数 据 存储 容量 的 公式 之 前 ， 我 们 要 清楚 的 是 ， 数 据 存储 的 容量 和 主机 数量 必须 基于 客户 的 
需求 ， 根 据 这 些 需 求 来 进行 容量 规划 。 


4.6.7 ”容量 盘 容 量规 划 


本 节 介 绍 用 来 手工 计算 Virtual SAN 数 据 存储 生产 容量 的 公式 。 有 几 种 方式 可 以 用 来 完成 这 一 任务 。 
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图 4-41 Virtual SAN 总 体 拥有 成 本 (ITCO) 和 容量 规划 计算 工具 


第 1 个 例子 基于 表 4-22 中 的 硬件 配置 ， 按 照 预定 义 的 硬件 来 进行 计算 。 公 式 考虑 了 FTT 设 置 ， 让 我 们 明确 虚拟 机 负载 需要 多 
少 实际 容量 。 这 个 公式 在 你 采用 vSAN Ready Nodes 一 类 的 定制 硬件 时 ， 可 以 帮助 你 判断 Virtual SAN 数 据 存储 的 可 用 容量 。 


表 4-22 列 出 了 计算 实际 可 用 容量 时 需要 的 数值 。 一 些 信息 是 基于 从 用 户 那里 通过 观察 得 到 的 数据 做 出 的 设计 假设 。 表 格 中 
所 显示 的 数值 是 后 续 所 有 容量 计算 的 基础 。 


表 4-22 ”容量 规划 因素 数值 


设计 因素 缩 3 数 值 
每 集群 主机 数量 Hst 16 
磁盘 组 数量 3 
每 磁盘 组 磁盘 数量 4 
容量 盘 尺 寸 1200GB (1.2TB ) 
预计 虚拟 机 磁盘 消耗 百分比 -50% 
容错 数量 Ftt 1 
每 虚拟 机 磁盘 数量 1 


在 下 面 的 Virtual SAN 计 算 公式 中 ， 并 不 包括 用 于 读 缓存 和 写 缓冲 的 闪存 设备 ， 因 为 它们 并 不 贡献 可 用 的 数据 存储 容量 。 
1. 集 群 容量 

对 于 特定 的 集群 节点 来 说 ，Virtual SAN 的 原始 存储 容量 可 以 基于 下 述 公式 计算 : 

公式 4.1: 初始 集群 容量 

Hst X NumDskGrpPerHst X NumDskPerDskGrp X SzHDD=RawClusterCapacity 

示例 : 


16X3XxX4X1200GB==230400GB==225TB 


2. 对 象 数量 


公式 在 计算 对 象 数量 时 包括 了 虚拟 机 文件 (包括 虚拟 机 根 命名 空间 ) 虚拟 机 交换 文件 以 及 虚拟 磁盘 。 对 象 的 数量 可 以 通过 下 
述 公 式 基 于 虚拟 机 数量 和 启用 的 功能 来 计算 。 


快照 必须 包含 在 Virtual SAN 对 象 计数 中 ， 但 是 在 本 例 中 ， 无 法 确定 快照 的 需求 ， 因 此 并 没有 把 它们 计算 在 内 。 
公式 4.2: 计算 对 象 数量 

No.VMsx (VMnamespace+vmSwap+NumOfVMDK) =NumberOfObjects 

示例 : 


250X (1 十 1 十 1) 一 750 个 对 象 


3. 组 件数 量 


虚拟 机 的 性 能 和 可 用 性 需求 决定 每 个 主体 所 对 应 的 组 件数 量 。 因 此 ， 我 们 在 设计 中 需要 仔细 计算 组 件 的 数量 ， 确 保 它 不 会 超 
过 主机 的 硬性 限制 值 9000。 组 件 的 数量 可 以 利用 下 面 的 公式 ， 基 于 每 虚拟 机 的 对 象 数量 来 计算 。 


这 种 估算 方法 可 以 用 来 计算 每 虚拟 机 总 的 组 件数 ， 然 后 再 统计 出 每 台 主机 上 的 最 大 组 件数 ， 以 确保 它 不 会 超过 主机 的 上 限 。 
公式 中 的 副本 和 见证 假设 FTT 值 为 1， 这 些 组 件 会 在 Virtual SAN 集 群 中 所 有 主机 上 分 布 。 


如 果 每 对 象 磁盘 条 带 数 大 于 缺 省 值 1 ， 每 个 条 带 都 是 一 个 单独 组 件 。 但 是 在 本 例 中 ， 架 构 设计 不 需要 更 多 功能 ， 因 此 ， 磁 盘 
条 带 值 保持 为 1， 不 会 对 计算 造成 影响 。 


公式 4.3: 计算 组 件数 量 
对 象 X (FITX2 十 1) 一 组 件数 量 
示例 : 


750X (1X2 十 1) = 二 1500 个 组 件 ， 相 当 于 平均 每 台 主 机 94 个 组 件 


4. 交 换文 件 对 象 和 容量 规划 


所 有 的 vSphere 和 存储 设计 都 需要 考虑 交换 文件 容量 ， 在 所 有 的 vSphere 环 境 中 都 需要 为 虚拟 机 交换 文件 空间 保留 一 定 的 磁盘 


5 沪 尼 


合 里 。 


-VsWp 文 件 在 虚拟 机 启动 时 被 创建 ， 大 小 等 于 虚拟 机 非 保 留 内 存 配 置 容量 。 例 如 ， 如 果 一 台 虚 拟 机 配置 了 8GB 内 存 并 且 内 存 
保留 设置 为 OMB ( 缺 省 值 ) ， 虚 拟 机 交换 文件 的 大 小 也 是 8GB。 如 果 内 存 保留 设置 为 4GB，.vswp 文 件 就 会 是 4GB 大 小 (8GB 减 
4GB) 。 


在 本 例 中 ， 架 构 师 不 能 确定 用 户 的 内 存 保留 ， 因 此 在 下 面 的 公式 中 没有 体现 。 另 外 ， 在 Virtual SAN 6.2 中 引入 效率 交换 和 
稀疏 交换 等 功能 ， 不 会 影响 对 象 计数 ， 下 面 的 计算 假定 高 级 主机 级 别 选项 SwapThickProvisionedDisabled 没 有 被 使 用 。 


不 管 FTT 的 值 是 多 少 ，Virtual SAN 缺 省 会 为 交换 文件 空间 创建 两 个 副本 ， 因 此 交换 空间 存储 会 占用 裸 盘 容 量 ， 我 们 在 设计 
时 也 要 认真 考虑 。 


公式 4.4: 计算 交换 文件 对 象 容量 
No.VMs XvmSwp X2=SwapFileObjectCapacity 
示例 : 


250 XxX 8GB xX2=4000GB 


5. 可 用 容量 计算 


Virtual SAN 数 据 存 储 的 可 用 容量 是 实际 上 可 以 用 来 存储 虚拟 机 的 可 用 空间 数量 。 可 用 容量 是 裸 盘 容量 减 去 Virtual SAN 的 开 
销 ， 再 除 以 FTT+ 1。 


公式 4.5: 计算 可 用 容量 

(DiskCapacity—DskGrp X DskPerDskGrp X Hst X VSANoverhead) / (FTT+1) 一 UsableCapacity 
示例 : 

(230400GB 一 3X4X16X1) /FIT 十 1 二 230208GB/2= 二 115104GB (大 约 112TB) 


注意 : 通常 每 个 虚拟 磁盘 会 占用 1GB 的 存储 空间 ， 用 来 存储 Virtual SAN 组 件 和 VMFS 元 数据 开销 ， 这 被 称 为 
VSANoverhead。 


基于 前 面 的 计算 ， 在 16 节 点 的 Virtual SAN 集 群 中 大 约 有 225TB 的 裸 盘 容量 。 用 户 可 以 用 来 创建 虚拟 磁盘 的 总 容量 是 
112TB。 差 异 的 部 分 用 来 存储 为 提升 可 用 性 而 创建 的 副本 ， 以 及 虚拟 机 交换 空间 。 


一 个 好 的 vsphere 人 存储 设计 要 确保 运 维 团队 使 用 不 超过 80% 的 可 用 容量 来 存储 虚拟 机 。 以 确保 为 vsphere 存 储 开 销 预 留 一 定 


的 资源 ， 如 虚拟 机 快照 或 工作 空间 。 


此 外 ， 永 远 别 忘 了 


我 们 前 面 的 设计 示例 中 ， 每 个 主机 只 有 大 约 94 个 组 件 。 但 是 ， 随 着 虚拟 机 磁盘 数量 


数量 可 能 有 很 大 的 增长 。 


6. 计 算 虚 拟 机 容量 需求 


总 的 组 件数 量 ， 尽 管 在 vsphere 6 版 本 中 这 个 数值 从 3000 增 加 到 了 9000， 它 通常 不 再 是 一 个 设计 约束 ， 
、 人 快照 或 FTT 值 的 增加 ， 组 件 


虽然 官方 提供 了 一 个 Virtual SAN 容 量规 划 计算 工具 ， 但 理解 这 些 计算 如 何 实 现 也 很 重要 。 下 面 我 们 给 出 如 何 基于 客户 虚拟 
机 的 需求 来 执行 计算 任务 的 方法 ， 首 先 当然 是 充分 理解 目标 负载 的 配置 。 


为 了 完成 设计 和 容量 规划 任务 ， 我 们 需要 明确 以 下 信息 : 


. 每 虚拟 机 的 vCPU 数 量 


“ 虚拟 机 内 存 大 小 


“ 虚拟 机 磁盘 容量 


* 每 个 虚拟 机 的 虚拟 磁盘 数量 


` 估算 磁盘 使 用 百分比 


下 面 的 计算 基于 表 4-23 中 的 需求 ， 这 些 需 求 是 我 们 通过 几 次 研讨 会 从 客户 那里 收集 的 。 客 户 声称 因为 持续 增长 ， 设 计 中 需 


要 考虑 总 计 500 个 负载 的 需求 。 


设计 因素 
每 虚拟 机 平均 vCPU 
每 虚拟 机 平均 内 存 


每 虚拟 磁盘 平均 大 小 
预计 虚拟 磁盘 容量 使 用 率 
平均 虚拟 机 内 存 预 留 


基于 5: 1 的 虚拟 CPU 到 物理 CPU 的 整合 


们 还 需要 考虑 表 4-24 中 的 设计 因素 。 


表 4-23 设计 场景 客户 需求 


每 虚拟 机 


100GB 


表 4-24 设计 场景 中 额外 的 存储 因素 


500 个 负载 
1500vCPU 
4000GB 
50 000GB 
25 000GB 
无 


比 ， 计 算 需 求 是 300 核 和 约 4TB 内 存 ， 假 定 不 会 超 量 使 用 。 对 于 存储 资源 的 计算 ,我 


设计 因素 每 虚拟 机 


容错 的 数量 
快照 容量 百分比 (SnapSpace) ey 
Virtual SAN 组 件 和 VMES 元 数据 开销 (VSANoverhead ) 1GB 
交换 空间 容量 ( 缺 省 厚 置 备 ) 分 本 内 在 数 重 的 100% 


满足 客户 需求 的 Virtual SAN 存 储 容量 可 以 基于 下 述 公式 来 计算 : 
公式 4.6: 计算 容量 需求 


( ( (No.VMsX AveVM SzHDD) 十 (No.VMsX AvegVM SzMEM) ) XFITT+1) 十 10%SnapSpace 十 


(No.VMs Xx @vSANoverhead) =RequiredCapacity 
示例 : 
(500X100) 十 (500X8) = 二 (50000 十 4000) x2=108000GB 十 10% 十 (500X1GB) 
二 119300GB 
119300/1024 王 116.5TB 


表 4-25 客户 计算 和 存储 需 示 汇总 


设计 要 素 每 虚拟 机 
裸 存储 容量 117TB ( 取 整 ) 
内 存 4TB 

物理 CPU 核 数 300 


基于 表 4-25 中 的 这 些 信息 ， 你 就 可 以 定义 可 用 性 选项 ， 以 决定 最 终 的 vSphere 主 机 配置 ， 如 所 需 主机 的 数量 、 物 理 CPU 和 内 
存 容量 、 磁 盘 组 配置 、 每 主机 的 磁盘 组 数量 、 每 磁盘 容量 ， 以 及 每 磁盘 组 中 闪存 的 百分比 等 。 


4.7 可 用 性 设计 


Virtual SAN 本 身 的 设计 就 已 经 具备 了 处 理 错误 事件 的 能 力 ， 可 以 确保 硬件 失效 时 数据 不 丢失 。Virtual SAN 利 用 复制 技术 作 
为 保障 虚拟 机 对 象 可 用 性 的 主要 机 制 。 每 当 遭 遇 到 硬件 故障 或 者 工程 师 意外 地 拔 掉 了 错误 的 电源 线 或 磁盘 时 ， 一 个 好 的 设计 可 以 


将 影响 最 小 化 。 


这 一 切 之 所 以 成 为 可 能 是 因为 复制 过 程 为 数据 制作 了 多 个 副本 并 将 它们 存储 在 集群 中 不 同 的 磁盘 组 或 主机 中 。 如 图 4-42 所 
示 ， 当 主机 、 磁 盘 组 或 磁盘 故障 时 ， 数 据 的 一 个 或 多 个 副本 仍然 存储 在 Virtual SAN 集 群 中 的 其 他 节点 上 。 

















图 4-42 Virtual SAN 可 用 性 设计 


这 种 机 制 称 为 多 节点 互助 元 余 阵列 ， 或 RAIN。 主 机 之 间 使 用 RDT 进 行 通信 ，RDT 专 门 为 在 多 个 逻辑 节点 间 通 过 多 条 路 径 发 
送 大 文件 和 数据 报 (如 果 需 要 ， 可 能 是 非常 大 的 数据 报 ) 进行 优化 ， 这 有 点 像 具备 容错 功能 的 客户 机 服务 器 通信 机 制 。 根 据 集群 
监视 进程 发 布 的 链 路 状态 变更 报告 、 成 员 关 系 的 变化 以 及 目录 服务 (CMMDS) 中 的 信息 ，RDT 可 以 快速 建立 和 拆除 传输 连接 ， 
将 链 路 失败 导致 的 数据 报 传 输 延 迟 降 到 最 小 。 


当 一 个 对 象 被 创建 时 ，Virtual SAN RAIN 机 制 就 开始 发 挥 作 用 ，CLOM 首 先 检查 是 否 有 足够 的 磁盘 组 以 满足 指定 的 人 存储 策 
略 。 为 了 完成 这 项 任务 ，CLOM 通 过 CM M DS 与 其 他 节点 进行 通信 。 找 到 可 用 的 磁盘 组 之 后 ，DOM 和 负责 创建 对 象 组 件 ， 通 过 本 
地 日 志 结 构 对 象 管理 器 (LSOM) 完成 本 地 操作 ， 通 过 RDT 和 集群 中 其 他 主机 上 的 DOM 客 户 端 实现 远程 协作 ， 再 由 远程 节点 上 
的 LSOM 负 责 将 数据 写 入 磁盘 组 。 所 有 后 续 的 读 写 操作 都 直接 通过 DOM 完 成 。 所 有 这 些 Virtual SAN 的 内 部 服务 和 工作 机 制 会 在 
本 章 后 面 再 做 详细 介绍 。 


4.7.1 ”防范 硬件 组 件 失败 的 设计 
由 RAIN 机 制 提供 的 复制 过 程 功能 强大 生灵 活 ， 使 得 Virtual SAN 能 够 处 理 I 临 时 和 永久 的 硬件 故障 ， 如 错误 的 网 络 配置 或 整个 
设备 失效 ， 某 一 台 vSphere 主 机 完全 不 能 工作 。 这 些 情 况 都 不 会 影响 虚拟 机 负载 的 运行 。 


Virtual SAN 将 故障 分 为 两 种 完全 不 同 的 场景 : 缺失 故障 和 降级 故障 ， 分 别 有 不 同 的 缺 省 处 理 方式 ，Virtual SAN 会 根据 故障 
类 型 决定 如 何 应 对 。 


1. 缺 失 故 障 


缺失 故障 (absent failure) 是 指 检测 到 了 影响 物理 交换 机 、 网 卡 、vSphere 主 机 或 故障 域 的 /VO 失 败 。 缺 失 故 障 发 生 
时 ，Virtual SAN 不 会 立即 开始 重 同步 所 有 数据 到 集群 中 的 另 一 台 主 机 ， 而 是 在 检测 到 这 一 事件 60 分 钟 后 才 启动 重 同步 操 作 ， 这 
个 值 是 可 配置 的 。 


延迟 60 分 钟 的 理由 是 如 果 故 障 发 生 在 物理 交换 机 、 网 卡 、vSphere 主 机 或 故障 域 ， 通 常 这 些 错误 是 暂时 的 。 例 如 ， 网 络 交换 


机 或 主机 可 能 因为 计划 内 的 维护 操作 需要 重新 启动 。 因 此 ， 当 Virtual SAN 检 测 到 这 一 类 故障 时 ， 系 统 会 等 待 一 段 时 间 ， 以 确定 
故障 组 件 是 否 能 够 在 启动 重 同 步 故 障 主机 或 失 联 主机 上 所 有 数据 或 采取 修复 操作 之 前 恢复 在 线 。 


我 们 在 前 面 提 到 过 ， 这 个 60 分 钟 的 缺 省 延 时 是 可 以 配置 的 ， 管 理 员 可 以 根据 业务 或 设计 的 需要 增加 或 减少 它 。 例 如 ， 运 维 
部 分 的 设计 可 能 因为 夜间 维护 操作 的 需要 而 延长 这 个 数值 ， 或 者 因为 在 软件 维护 窗口 中 需要 蔡 换 硬件 而 导致 维护 窗口 超过 了 60 
分 钟 。 修 改 这 个 参数 不 需要 重新 启动 主机 。 


2. 降 级 故障 


Virtual SAN 能 够 识别 的 另 一 种 故障 事件 是 降级 故障 (degraded failure) 。 如 果 Virtual SAN 在 闪存 设 备 、 机 械 磁 盘 或 存储 
控制 器 这 几 个 部 分 检测 到 I/O 失 败 ， 就 会 认定 为 降级 故障 。 


与 缺失 故障 不 同 ， 降 级 故障 事件 会 立即 在 集群 中 的 存活 主机 之 间 触 友 一 个 数据 重 同步 操作 。 这 一 功能 不 提供 任何 可 配置 的 参 
数 。 因 为 这 些 硬件 设备 导致 的 降级 故障 通常 是 永久 性 的 。 延 迟 重 同 步 对 于 运 维 来 说 并 没有 任何 益处 ， 因 为 设备 不 太 可 能 重新 上 
线 。 

降级 事件 一 发 生 ，Virtual SAN 会 为 那些 受到 影响 的 、 与 相关 存储 策略 不 一 致 的 对 象 发 起 一 个 重 同步 操作 。 

3. 重 同步 操作 


Virtual SAN 集 群 的 重 同步 操作 有 非常 大 的 资源 开销 。 为 故障 设备 上 的 现存 数据 创建 一 个 新 副本 必须 以 数据 的 存活 副本 作为 
源 。 幸 好 有 RAIN 机 制 ， 这 些 存活 副本 确实 存在 ， 就 分 布 于 集群 中 的 其 他 主机 和 容量 盘 上 。 分 布 范围 在 很 大 程度 上 决定 于 FTT 功 
能 的 配置 ， 这 个 策略 决定 CLOM 用 户 守护 进程 如 何在 集群 内 创建 对 象 副本 。 


重 同步 操作 进行 期 间 ， 虚 拟 机 的 MO 可 能 会 受到 影响 ， 要 与 重 构 过 程 所 产生 的 MO 争夺 资源 ， 可 能 导致 虚拟 机 的 MO 请 求 无 法 
及 时 得 到 满足 。 在 修复 缺失 组 件 的 过 程 中 ， 性 能 会 受到 限制 。 如 你 所 料 ， 这 可 能 对 Virtual SAN 集 群 上 能 够 运行 的 负载 总 量 产生 
不 利 的 影响 。 因 此 ， 容 量规 划 和 环境 设计 要 将 重 同步 操作 的 影响 考虑 在 内 。 


从 数据 可 用 性 的 角度 看 ，Virtual SAN 能 够 遭遇 到 的 最 坏 场景 是 ， 没 有 足够 多 的 容量 用 来 完成 重 同步 操作 ， 如 果 重 构 过 程 中 
出 现 这 种 情况 ， 虚 拟 机 对 数据 的 访问 可 能 存在 风险 。 例 如 ， 在 三 节点 集群 中 配置 使 用 缺 省 的 FTT 值 1， 一 台 主 机 故障 可 能 导致 无 
法 通过 剩余 的 两 台 主 机 完成 重 同步 操作 ， 因 为 它们 可 能 已 经 仓 有 受 影响 负载 的 相关 组 件 。 在 这 种 情况 下 ， 重 同步 操作 在 故障 主机 
恢复 正常 或 者 新 主机 加 入 现存 集群 之 后 才 会 发 生 。 因 此 ， 我 们 不 建议 在 生产 环境 中 使 用 三 节点 集群 来 承载 业务 关键 应 用 的 原因 ， 
因为 可 用 性 可 能 达 不 到 预期 的 服务 级 别 。 


4. 再 平衡 操作 


如 图 4-43 所 示 ， 在 Virtual SAN 集 群 中 ， 再 平衡 操作 的 目的 是 主动 将 组 件 的 数据 重新 分 布 到 各 个 节点 ， 以 在 集群 范围 内 平衡 
消耗 存储 资源 。 


! 平衡 后 的 容量 盘 


> 
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图 4-43 再 平衡 操作 


这 种 再 平衡 操作 缺 省 情况 下 会 在 容量 盘 的 利用 率 达 到 80% 时 发 生 ， 也 可 以 通过 将 一 台 主 机 切换 到 维护 模式 来 手工 触发 ， 选 
择 “ 确 保 访问 性 ”或 “完整 数据 迁移 ”选项 就 可 以 了 。 通 过 将 一 台 主 机 置 为 维护 模式 ， 你 可 以 强制 再 平衡 可 用 的 存储 容量 。 但 
是 ， 只 是 添加 资源 到 集群 并 不 会 自动 激活 再 平衡 操作 ， 添 加 到 现 有 集群 的 人 存储 资源 被 Virtual SAN 标 识 为 额外 容量 ， 只 有 在 部 署 
新 的 虚拟 机 时 才 会 使 用 ， 或 者 等 到 下 一 次 重 同步 发 生 的 时 刻 。 


如 果 硬 件 发 生 故障 ， 并 且 故 障 导 致 空间 利用 率 超 过 80% ， 也 可 能 会 触发 计划 外 再 平衡 操作 。 但 这 个 再 平衡 操作 会 在 CLOM 驱 
动 的 重 同步 操 作 完 成 之 后 进行 。 再 强调 一 遍 ， 再 平衡 操作 的 目的 只 是 为 了 在 Virtual SAN 集 群 中 的 存储 设备 之 间 平 均 分 布 虚拟 机 
组 件数 据 。 如 前 所 述 ，10Gbys 的 网 络 可 以 优化 这 些 操 作 的 性 能 。 


因为 再 平衡 操作 会 产生 MO 开销 ， 因 此 添加 新 的 存储 设备 或 者 提供 更 多 存储 容量 的 新 节点 时 ，Virtual SAN 不 会 自动 分 布 数 
据 到 新 添加 设备 。 要 使 Virtual SAN 能 够 将 数据 分 布 到 这 些 新 设备 上 ， 管 理 员 必须 通过 Ruby vSphere Console (RVC) 中 的 
vsan.proactive_rebalance 命 令 手 工友 起 一 个 再 平衡 操作 。 发 起 一 个 再 平衡 操作 时 ， 管 理 员 还 可 以 指定 一 些 阀 值 ， 如 再 平衡 操作 
可 以 持续 多 久 、 每 个 节点 每 小 时 可 以 迁移 的 最 大 数据 量 。 不 指定 则 使 用 缺 省 参数 。 考 虑 到 执行 期 间 所 带 来 的 /O 开 销 ， 这 些 手工 
发 起 的 再 平衡 操作 通常 安排 在 软 性 维护 窗口 中 。 


4.7.2 ”防范 主机 故障 的 主机 集群 设计 与 规划 


将 一 组 ESXi 主 机 组 成 集群 对 于 Virtual SAN 而 言 还 有 一 个 好 处 ， 就 是 可 以 充分 利用 vSphere 所 提供 的 诸如 vMotion、DRS、 
HA 和 SMP-FT 等 可 用 性 与 负载 均衡 技术 。 在 我 们 制定 vSphere 主 机 故障 计划 和 计划 内 维护 任务 时 ， 认 真 考虑 如 何 将 这 些 技术 与 用 
户 环境 中 的 Virtual SAN 相 集成 是 非常 重要 的 。 


1.Virtual SAN 与 vSphere 高 可 用 的 互 操作 性 


为 主机 故障 和 例 行 维护 制定 计划 是 Virtual SAN 集 群 设计 任务 中 的 重要 一 环 。vSphere 集 群 用 来 提高 可 用 性 和 实现 资源 负载 
均衡 。 集 群 配置 的 一 个 重要 指标 是 集群 总 容量 的 利用 率 ， 要 预 留 一 定 的 资源 以 应 对 故障 的 发 生 ， 或 确保 运 维 任务 的 执行 。 在 判断 
每 个 集群 中 需要 多 少 个 计算 节点 时 ， 要 考虑 清楚 你 需要 预 留 多 少 计算 和 存储 资源 ， 这 些 资源 不 能 被 正常 的 负载 所 使 用 ， 而 只 能 
来 满足 故障 场景 下 的 资源 分 配 。 


Virtual SAN 不 会 与 vSphere HA 进行 交 豆 ， 以 确保 有 足够 的 可 用 存储 空间 用 来 应 对 主机 故障 的 发 生 。 这 是 FTT 功 能 和 相关 存 
储 策略 的 责任 ， 它 们 负责 确保 有 足够 的 对 象 和 组 件 分 布 于 集群 之 中 ， 以 容忍 主机 故障 的 发 生 。 


例如 ， 图 4-44 展 示 了 一 个 八 节点 集群 ， 我 们 通常 建议 保留 相当 于 一 台 主 机 的 CPU 和 内 存 资 源 用 来 作为 故障 切换 容量 ， 这 样 
当 集群 中 有 一 台 主 机 故障 时 不 会 影响 虚拟 机 的 性 能 ， 虚 拟 机 可 以 在 集群 的 存活 主机 上 重新 启动 。 


如 图 4-44 所 示 ，Virtual SAN 数 据 人 存储 、 跨 主机 分 布 的 对 象 和 组 件 ， 这 些 都 保障 Virtual SAN 可 以 容忍 故障 的 发 生 ， 这 种 机 
制 独立 于 vSphere HA 的 准 入 控制 策略 ， 后 者 在 进行 可 用 性 计算 时 只 考虑 CPU 和 内 存 资源 。 


为 故障 切换 
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图 4-44 计算 vSphete HA 控制 策略 和 容错 功能 可 承受 的 故障 数量 


vSphere HA 工作 在 集群 级 别 ， 启 动 后 负责 监测 vsphere 主 机 故障 ， 必 要 时 重新 启动 虚拟 机 ， 这 通常 发 生 在 主机 故障 或 网 络 
隔离 事件 之 后 。 


在 使 用 传统 VMFS 存 储 卷 的 vSphere 计 算 集群 中 ，HA 机 制 通过 网 络 和 数据 存储 心跳 监视 集群 中 的 所 有 主机 ， 当 主 节点 和 从 
节点 之 间 的 网 络 心跳 丢失 时 ， 主 节点 会 试图 通过 数据 存储 心跳 系统 来 验证 从 节点 是 否 还 在 工作 。 如 果 数 据 存储 心跳 也 停止 了 ， 从 
节点 就 被 判定 为 失败 ， 主 节点 会 尝试 通过 集群 中 的 其 他 节点 来 重启 受 影响 的 虚拟 机 ， 这 就 是 vSphere HA 准 入 控制 策略 的 目的 ， 
以 及 vSphere 集 群 为 应 对 故障 而 保留 一 些 未 使 用 资源 的 用 意 。 


Virtual SAN 与 vSphere HA 机 制 之 间 完 全 可 以 互 操作 ， 但 是 在 Virtual SAN 集 群 中 ， 这 一 机 制 的 工作 方式 会 有 所 不 同 ， 如 表 
4-26 所 示 。 在 Virtual SAN 平 台 上 ， 数 据 存储 心跳 不 能 工作 ，vSphere HA 代理 使 用 Virtual SAN 网 络 来 通信 ， 而 不 是 主机 的 管理 
网 络 。 但 仍然 使 用 管理 网 关 地 址 来 判断 主机 是 否 被 隔离 。 


表 4-26 ”vSphere HA 工作 方式 比较 


HA 所 使 用 的 网 络 Virtual SAN 存储 网 络 管理 网 络 


任何 挂 载 到 一 台 以 上 主机 的 外 部 数据 


HA 所 使 用 的 心跳 数据 存储 任何 挂 载 到 一 台 以 上 主机 的 数据 存储 


存储 ，Virtual SAN 数据 存储 除外 


无 法 通过 ping 访问 隔离 地 址 且 存 储 网 无 法 通过 ping 访问 隔离 地 址 且 管 理 网 


儿 声 明 隔 离 i pa 
E 机 声明 隔 高 络 不 可 访问 络 不 可 访问 





在 Virtual SAN 集 群 中 ，HA 代 理 所 使 用 的 网 络 与 Virtual SAN 用 于 内 部 数据 存储 通信 的 网 络 相 同 ， 因 此 容错 域 管理 器 
(FDM) 并 不 使 用 主机 的 管理 网 络 ， 而 在 不 启用 Virtual SAN 功 能 的 集群 中 ，HA 代 理 是 利用 管理 网 络 进行 通信 和 的。 如 图 4-45 所 
示 ， 如 果 在 集群 上 启用 了 Virtual SAN，HA 将 会 使 用 Virtual SAN 网 络 来 传输 心跳 信息 ， 实 现代 理 间 的 通信 。 
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图 4-45 vSphere 高 可 用 网 络 通信 


这 种 架构 上 的 改变 可 以 保证 Virtual SAN 与 VSphere HA 机 制 对 网 络 上 所 发 生 的 一 切 事件 拥有 一 致 的 视图 ， 特 别 是 当 网 络 出 
现 分 区 时 ， 大 家 对 分 区 的 了 解 必须 是 一 致 的 。 


当 分 区 事件 发 生 时 ， 每 个 分 区 都 会 形成 一 个 子 集群 ，Virtual SAN 和 HA 需要 看 到 相同 的 成 员 关 系 。 否 则 ， 当 HA 试图 在 网 络 
分 区 的 一 侧 控制 一 台 虚 拟 机 时 ， 它 的 主 控 复 制 数 据 存储 组 件 可 能 位 于 另 一 分 区 ， 如 图 4-46 所 示 。 这 种 不 一 致 会 招致 风险 。 
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图 4-46 ”Virtual SAN 网 络 分 区 场景 
(1) vSphere 高 可 用 心跳 数据 存储 


Virtual SAN 的 HA 实现 还 有 另 一 个 重要 的 不 同 ， 存 储 心跳 不 能 使 用 Virtual SAN 的 数据 存储 。 如 果 你 利用 Web 客 户 端 管理 
Virtual SAN 集 群 就 会 发 现 ， 在 选择 心跳 数据 存储 时 ， 是 不 能 选择 Virtual SAN 数 据 存 储 的 。 同 样 ， 如 果 你 试图 绕 过 用 户 界面 而 通 
过 vSphere APl 来 配置 Virtual SAN 的 数据 存储 作为 存储 心跳 ， 你 会 收 到 一 条 配置 错误 。 


对 于 Virtual SAN 环 境 下 的 HA 而 言 ， 心 跳 数据 存储 不 是 必需 的 。 但 如 果 你 还 有 一 个 可 以 通过 独立 于 Virtual SAN 网 络 的 其 他 
路 径 访问 的 外 部 存储 ， 则 可 以 使 用 它 来 作为 心跳 数据 存储 。 这 种 配置 可 能 带 来 更 多 好 处 ， 但 是 会 增加 成 本 。 


如 果 设计 中 已 经 包括 了 通过 不 同 协 议 、 不 同 物理 网 络 访问 的 存储 ， 配 置 一 个 小 容量 专用 心跳 数据 存储 的 成 本 就 很 低 。 你 所 选 


择 的 存储 必须 在 网 络 出 现 分 区 或 主机 被 隔离 时 能 够 被 所 有 的 主机 访问 。 如 果 设 计 中 不 包含 能 够 被 整个 集群 访问 的 非 Virtual SAN 
数据 存储 ， 如 用 于 存放 vSphere 目 录 和 /或 维护 日 志 的 NFS 挂 接点 ， 就 不 需要 只 为 了 心跳 而 添加 数据 存储 了 。 


使 用 心跳 数据 存储 可 以 为 环境 的 运 维 管理 提供 如 下 好 处 : 
“ 心跳 数据 存储 使 YCenter Server 能 够 报告 被 分 区 或 隔离 主机 的 状态 ， 而 不 是 简单 地 报告 故障 。 


“ 对 于 那些 没有 存储 在 Virtual SAN 数 据 存储 上 的 虚拟 机 ， 在 主机 被 分 区 或 隔离 了 以 后 ，FDM 主 控 会 对 失去 响应 的 虚拟 机 做 出 
响应 。 心 跳 数据 存储 可 以 提高 这 种 响应 的 可 能 性 。 


.心跳 数据 存储 也 可 以 防范 当主 机 被 分 区 或 隔离 时 ， 由 vSphere HA 所 引起 的 虚拟 机 MAC 地 址 冲突 。 
(2) 主机 隔离 地 址 建议 


vSphere 高 可 用 代理 运行 于 每 一 台 主 机 ， 负 责 监视 网 络 流量 以 发 现 隔离 事件 。 如 果 它 发 现在 HA 网 络 上 没有 了 代理 与 代理 之 
间 通 信 的 流量 ， 它 会 试图 去 Ping 预 先 配置 好 的 隔离 地 址 ， 缺 省 情况 下 是 主机 管理 网 络 上 的 网 关 地 址 。 即 便 在 使 用 Virtual SAN 网 
络 来 传递 心跳 的 Virtual SAN 环 境 中 情况 也 是 如 此 。 


使 用 隔离 地 址 的 目的 是 防止 HA 代理 错误 地 声明 主机 隔离 事件 ， 如 果 因 为 某 种 原因 ， 集 群 中 的 代理 不 能 相互 通信 了 ， 会 试图 
先 去 访问 隔离 地 址 ， 只 有 当 这 个 访问 也 失败 了 ， 主 机 才 会 被 宣告 为 被 隔离 。 


管理 员 在 配置 vSphere HA 时 可 以 指定 最 多 10 个 隔离 地 址 。 在 Virtual SAN 环 境 中 ， 应 该 配置 一 个 能 够 用 来 判断 主机 是 否 
经 无 法 访问 Virtual SAN 网 络 的 隔离 地 址 ， 如 Virtual SAN 网 络 的 缺 省 网 关 。 


要 实现 这 种 配置 ， 你 需要 在 vSphere HA 的 高 级 设置 中 配置 HA 不 要 使 用 主机 管理 网 络 的 缺 省 网 关 ， 相 关 配 置 项 是 
das.useDefaultlsolationAddress=false， 并 利用 选项 das.isolationAddress0=VSAN Network IP Address 指 定 一 个 新 的 隔离 
地 址 。 通 过 增加 设置 项 的 最 后 一 位 数字 ， 可 以 配置 第 2 个 或 者 更 多 的 隔离 地 址 ,例如 ，das.isolationAddress1 和 


das.isolationAddress2。 


如 果 隔 离 和 分 区 事件 可 能 发 生 ， 就 要 确保 这 一 组 隔离 地 址 可 以 被 可 能 形成 的 每 个 网 段 中 的 主机 所 访问 。 此 外 ， 如 果 Virtual 
SAN 网 络 是 不 可 路 由 的 ， 就 要 为 每 一 个 可 能 的 分 区 分 配 一 个 可 以 被 ping 通 的 IP 地 址 。 


最 后 ， 要 确保 每 个 Virtual SAN 集 群 网 络 都 在 一 个 唯一 且 隔 离 的 网 段 上 。 多 个 Virtual SAN 集 群 共享 一 个 子 网 可 能 导致 无 法 预 
期 的 结果 ， 给 运 维 团 队 分 析 和 排除 问题 带 来 影响 。 


总 的 来 说 ， 对 于 所 有 的 Virtual SAN 集 群 来 说 ，vSphere 高 可 用 都 应 该 是 设计 的 一 部 分 ， 它 可 以 在 vSphere 主 机 故障 或 网 络 
隔离 事件 发 生 时 在 数据 中 心 本 地 恢复 虚拟 机 。 如 果 vSphere 主 机 故障 ， 则 运行 在 该 服务 器 上 的 虚拟 机 会 停机 ， 但 通常 几 分 钟 后 在 
男 一 台 主 机 上 重新 启动 。 尽 管 会 导致 用 户 可 感知 的 服务 中 断 ， 但 自动 在 其 他 主机 上 重新 启动 虚拟 机 可 以 减少 这 种 影响 。 存 储 资 源 
的 可 用 性 则 是 由 预定 义 好 的 存储 策略 来 决定 的 ， 具 体 说 就 是 FTT 功 能 。 


除了 HA， 为 了 能 够 在 可 用 的 vSphere 主 机 间 不 断 平衡 负载 ， 以 实现 最 好 的 性 能 和 扩展 性 ，DRS 也 应 该 作为 Virtual SAN 集 群 
设计 的 一 部 分 。DRS 的 工作 原理 是 利用 vMotion 功 能 来 实现 自动 的 资源 优化 和 虚拟 机 放置 。 但 是 ，VMware 分 布 式 电源 管理 
(Distributed Power Management，DPM) 特性 ， 按 照 资 源 利 用 率 来 开关 机 以 减少 DRS 集 群 的 电力 消耗 ， 并 不 被 Virtual 
SAN 集 群 所 支持 。 


在 多 集群 Virtual SAN 平 台 设 计 中 ， 要 在 所 有 数据 中 心 的 所 有 集群 中 保持 全 部 HA 和 DR 参数 的 一 致 性 ， 以 帮助 减少 不 确定 性 
并 简化 运 维 管理 。 表 4-27 提 供 了 Virtual SAN 实 现 的 设计 指南 ， 给 出 了 vsphere HA 和 DRS 属 性 的 标准 配置 和 可 选 配置 。 


属 性 


集群 特性 


vSphere 高 可 用 (HA) 


vSphere DRS 


增强 的 vMotion 功能 


交换 文件 位 置 


高 级 设置 


2. 资 源 平衡 与 透明 维护 


表 4-27 Virtual SAN HA 和 DRS 参 数 示例 


设 置 
高 可 用 (HA) 
分 布 式 资源 调度 (DRS) 
监视 主机 状态 
准 入 控制 策略 
虚拟 机 选项 -> 虚拟 机 重启 策略 
虚拟 机 选项 -> 主机 隔离 响应 
虚拟 机 监视 
数据 存储 心跳 
自动 化 级 别 
DRS 组 管理 需 
规则 
虚拟 机 选项 
电源 管理 (DPM) 
主机 选项 





das.usedefaultisolationaddress 
das.isolationaddress0 


das.isolationaddress1 


配 置 


可 以 容忍 的 主机 故障 =1 (取决 于 集群 节点 数量 ) 
中 

保持 电源 打开 

禁用 

不 适用 

全 自动 (建议 采用 1、2、3 优先 级 ) 
只 适用 于 延伸 集群 配置 

只 适用 于 延伸 集群 配置 

缺 省 

关闭 (不 支持 ) 

缺 省 (禁用) 

启用 

与 虚拟 机 存储 在 同一 目录 

False 

VSAN 网 络 IP 地 址 / 网 关 

VSAN 网 络 IP 地 址 / 网 关 


如 果 运 维 需 要 将 一 台 主 机 和 置 于 维护 模式 ，DRS 的 另 一 个 好 处 就 显现 出 来 了 。 例 如 ， 需 要 为 主机 添加 更 多 的 内 存 时 ， 如 果 你 配 
置 了 适当 的 DRS 策 略 允 许 自动 迁移 ， 则 该 主机 上 的 所 有 虚拟 机 都 会 被 自动 迁移 到 集群 中 的 其 他 主机 上 。 这 就 给 运 维 工作 带 来 了 很 
大 的 便利 。 而 vSphere HA 的 准 入 控制 策略 可 以 为 计划 的 和 非 计 划 的 停机 保留 资源 ， 这 在 硬件 滚动 升级 或 升级 打 补 丁 的 场景 下 有 
着 非常 大 的 价值 。 这 些 动 作 可 以 在 不 需要 中 断 应 用 负载 的 前 提 下 执行 ， 所 有 的 维护 工作 对 用 户 而 言 是 透明 的 ， 没 有 停机 时 间 ， 极 
大 地 改善 了 可 用 性 ， 可 以 帮助 管理 员 实 现 不 间断 的 IT 服务 。 


3.Virtual SAN 维 护 模 式 操 作 


在 Virtual SAN 集 群 中 配置 一 台 vSphere 主 机 进行 维护 模式 时 ， 与 Virtual SAN 的 数据 撤离 机 制 相关 的 选项 有 3 个 : 确保 可 访 
问 性 、 完 整数 据 迁 移 和 无 数据 迁移 ， 如 图 4-47 所 示 。 最 合适 的 选项 取决 于 一 些 与 集群 相关 的 因素 ， 以 及 维护 操作 所 需 的 时 间 长 
短 。 选 择 不 同 的 选项 的 主要 目的 是 确保 数据 的 可 用 性 、 最 小 化 MO 影响 或 者 最 小 化 任务 执行 时 间 。 










Ensure accessibility: 


Virtual SAN ensures that all virtual mechines 
on this host Wil remain accessible if the host 
i shut down or removed from the cluster, 
Only partial data migration is needed_ This is 
the default option. 









A host in maintenance mode does not perform any activities 
including virtual machine provisioning. The host configuration 
Enter Maintenance Mode task does not complete until the abd 
You might need to either power off or migrate the virtual ms 
manually You can cancel the Enter Maintenance Mode task & 


A There are hosts in a Virtual SAN cluster. Once the hosts 4 
custer they will not have access to the Virtual SAN datas 
any virtual machines on that datastore， 





















Full dasta migration: 


Vrival SAN migrates al data that nesides on 
this host This option resuits in the largest 
amount of data transfer and consumes the 
most tme and res0Urces, 













No data migration: 


a Virtual SAN will not migrate any data from 
this host. Some virtual machines might 
become naccessible if the host is shut down 
or removed from the cluster. 





区 Move powered-off and suspended virtual machines to ot 






Virtual SAN data might reside on the hosts in a Virtual SAN ¢ 
to set the migration mechanism for the Virtual SAN data that 
the hosts enter maintenance mode., 


Virtual SAN data migration: 










Put the selected hosts in maintenance 





图 4-47 Virtual SAN 维 护 模式 撤离 选项 


做 出 选择 前 ， 操 作者 必须 清楚 存放 虚拟 机 对 象 和 组 件 的 Virtual SAN 数 据 存储 是 如 何 分 布 的 。 即 使 某 一 台 虚拟 机 并 不 运行 在 
要 进行 维护 模式 的 主机 上 ， 它 很 可 能 也 会 受到 影响 。 出 于 这 个 原因 ， 如 果 确 保 可 访问 性 或 迁移 全 部 数据 被 选中 ， 与 虚拟 机 相关 的 
组 件 可 能 必须 被 迁移 。 这 会 极 大 地 减 慢 主机 进行 维护 模式 的 速度 ， 并 增加 这 一 段 时 间 内 的 I/O 操 作 。 


(1) 确保 可 访问 性 选项 


确保 可 访问 性 是 缺 省 选项 。 如 果 在 确保 可 访问 性 的 前 提 下 将 一 台 主 机 转换 到 维护 模式 ，Virtual SAN 会 确保 该 主机 上 的 所 有 
虚拟 机 可 以 通过 集群 中 的 其 他 主机 进行 访问 。 如 果 主 机 是 临时 性 置 于 维护 模式 (例如 安装 新 硬件 ) ， 这 个 选项 通常 是 最 适合 的 。 
但 如 果 计划 从 集群 中 永久 移 除 主机 ， 这 个 选项 就 不 适用 。 


选择 这 个 选项 时 ， 通 常 只 有 部 分 的 数据 撤离 会 发 生 。 但 是 在 维护 期 间 虚 拟 机 可 能 并 不 遵从 它 所 关联 的 存储 策略 。 因 此 ， 如 果 
在 维护 期 间 有 事故 发 生 ， 且 FTT 功 能 定义 为 1， 虚 拟 机 会 有 丢失 数据 的 风险 。 在 三 节点 集群 或 者 3 个 故障 域 中 撤离 一 台 主 机 时 ， 确 
保 可 访问 性 是 唯一 可 用 选项 。 


Virtual SAN 版 本 1 和 版 本 6 在 确保 可 访问 性 的 行为 模式 上 有 点 不 同 : 在 Virtual SAN 版 本 1 中 ， 当 选择 这 一 选项 的 主机 进入 维 
护 模 式 时 ， 主 机 继续 向 Virtual SAN 数 据 存储 贡献 它 的 磁盘 组 存储 ， 在 该 主机 上 存储 数据 的 虚拟 机 依然 是 合 规 的 ， 所 有 组 件 都 是 
可 用 的 ; 但 是 在 Virtual SAN 版 本 6 中 ， 当 主机 进入 维护 模式 时 ， 它 就 不 再 为 Virtual SAN 数 据 存储 贡献 它 的 磁盘 组 了 ， 在 该 磁盘 
组 中 存储 的 组 件 会 被 标记 为 缺失 ， 虚 拟 机 在 vSphere Web Client 中 的 状态 会 显示 为 不 合 规 。 


(2) 迁移 全 部 数据 选项 


迁移 全 部 数据 选项 会 将 所 有 数据 撤离 到 人 存活 节点 上 ， 当 选择 这 一 选项 时 ，Virtual SAN 数 据 存储 会 维护 或 修复 受 影响 组 件 的 
可 用 性 。 如 果 Virtual SAN 集 群 中 有 足够 多 的 存储 资源 ， 则 数据 可 以 得 到 有 效 保护 。 


当 管 理 员 计 划 从 集群 中 永久 移 除 一 台 主机 ， 并 将 所 有 负载 撤离 该 主机 时 ， 通 常会 使 用 这 一 选项 。 这 个 撤离 模式 会 在 Virtual 
SAN 网 络 上 产生 大 量 的 数据 流量 。Virtual SAN 数 据 存 储 的 I/O 也 会 急剧 增加 ， 因 为 存储 在 该 主机 上 的 所 有 组 件 都 要 被 迁移 到 集 
群 中 的 其 他 位 置 。 操 作 期 间 虚 拟 机 一 直 都 可 以 访问 它们 的 存储 对 象 和 组 件 并 一 直 保 持 合 规 。 如 果 因 为 某 种 原因 虚拟 机 的 数据 不 可 
访问 ， 主 机 无 法 完全 撤离 ， 则 主机 不 能 进行 维护 模式 ， 操 作 会 超时 ， 并 报告 相关 错误 。 


(3) 不 迁移 数据 选项 


如 果 选 择 这 一 选项 ， 则 在 主机 进行 维护 模式 前 不 会 撤离 任何 数据 。 因 此 ， 一 些 虚 拟 机 对 象 有 不 可 访问 的 风险 ， 应 用 或 服务 可 
能 会 失败 。 这 个 选择 不 建议 在 生产 环境 或 业务 关键 场景 下 使 用 ， 因 为 它 可 能 导致 数据 丢失 。 


4.7.3 “仲裁 逻辑 设计 与 vSphere 高 可 用 


Virtual SAN 集 群 使 用 见证 组 件 作 为 仲裁 系统 ， 以 确保 分 布 式 数据 存储 的 一 致 性 操作 。 仲 裁 (quorum) 是 一 个 分 布 式 系统 
被 允许 执行 一 个 操作 之 前 必须 获得 的 最 小 数量 选票 。 在 Virtual SAN 中 ， 一 个 副本 要 保持 存活 ， 必 须 能 够 访问 至 少 50% 的 虚拟 机 
存储 组 件 。 如 果 少 于 50%， 则 该 对 象 将 不 可 用 。 


对 于 Virtual SAN 来 说 ， 这 个 问题 可 能 会 影响 到 虚拟 机 的 可 用 性 ， 如 果 一 台 主 机 出 现 故障 ， 失 去 仲裁 的 虚拟 机 对 象 可 能 无 法 
由 vSphere 高 可 用 服务 重新 启动 ， 直 到 集群 仲裁 得 到 恢复 。vSphere HA 必须 保证 能 够 访问 仲裁 和 最 近 副本 的 虚拟 机 才能 重新 启 
动 。 

图 4-48 展 示 了 一 个 实例 ， 在 一 个 三 节点 集群 中 ， 有 一 台 虚 拟 机 运行 在 主机 1 上 ， 被 分 配 的 存储 策略 指明 FTT 为 1， 如 果 全 部 3 
台 主 机 依次 故障 (主机 3 最 后 出 现 故 障 ) ， 当 主机 1 和 主机 2 重新 上 线 后 ，vSphere HA 将 无 法 重新 启动 虚拟 机 ， 因 为 主机 3 最 后 出 
现 故 障 ， 它 上 面 存 有 最 新 的 虚拟 机 对 象 组 件 副本 ， 当 前 不 可 访问 。 


在 这 种 场景 下 ， 必 须 等 待 3 台 主机 都 恢复 正常 ， 或 者 两 台 主 机 的 仲裁 都 位 于 主机 3。 如 果 上 述 两 个 条 件 都 不 能 得 到 满 
足 ，vSphere 高 可 用 会 试图 在 主机 3 上 线 后 重新 启动 虚拟 机 。 


4.7.4 故障 域 


Virtual SAN 版 本 6 在 架构 中 引入 了 故障 域 (fault domain) 的 概念 ， 我 们 可 以 将 组 成 Virtual SAN 集 群 的 主机 分 成 不 同 的 逻 
辑 故 障 区 域 。 这 种 机 制 可 以 确保 一 个 虚拟 机 对 象 的 所 有 副本 不 会 被 部 署 到 同一 个 逻辑 故障 区 域 。Virtual SAN 架 构 师 可 以 利用 这 
一 特性 设计 一 个 故障 域 感知 平台 ， 使 得 Virtual SAN 可 以 抵御 环境 故障 (如 数据 中 心 内 的 服务 器 机 柜 或 交换 机 故障 ) ， 或 者 一 组 
非常 有 可 能 同时 出 现 故障 的 主机 ， 以 实现 可 用 区 级 别 的 见 余 ， 而 不 是 只 能 承受 单 台 主机 故障 。 
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图 4-48 ”仲裁 逻辑 故障 场 最 


在 Virtual SAN 版 本 1 中 ，CLOM 守 护 进 程 假定 每 一 台 主机 都 在 一 个 单独 的 故障 域 中 ， 图 4-49 展 示 了 这 种 与 节点 无 关 的 故障 
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图 4-49 ” Virtual SAN 版 本 1 对 象 放 置 


示例 描述 了 Virtual SAN 版 本 1 在 存储 策略 指定 FTT 为 1 时 如 何在 跨越 3 个 机 柜 的 六 节点 集群 上 放置 对 象 。 每 个 机 柜 有 两 个 节 
点 ， 所 以 当 整 个 机 柜 出 现 故障 时 ，FTT 配 置 为 1 可 能 无 法 保护 虚拟 机 对 象 。 


图 4-50 展 示 了 另 一 个 例子 ，vSphere 6 运行 于 相同 的 架构 下 ， 这 个 六 点 节 集群 的 FTT 配 置 也 是 1， 每 个 机 柜 里 面 还 是 两 个 节 
点 ， 但 是 在 这 个 例子 中 ， 每 个 机 柜 配置 为 一 个 故障 域 ， 这 样 FTT 为 1 的 策略 就 能 更 好 地 保护 虚拟 机 ， 即 使 整个 机 柜 出 现 故 障 也 如 


图 4-51 展 示 了 在 4 个 机 柜 的 场景 下 使 用 故障 域 功 能 的 典型 设计 。 


如 图 4-51 所 示 ， 故 障 域 可 以 将 一 个 集群 内 的 主机 分 组 ， 划 分 出 故障 区 域 ， 这 是 通过 Virtual SAN 故 障 域 架 构 来 实现 的 ， 可 以 
保证 虚拟 机 数据 的 副本 跨越 多 个 预定 义 的 故障 域 ， 因 而 可 以 承受 单位 故障 域 的 故障 。 在 设计 中 使 用 故障 域 可 以 提供 下 述 的 容错 能 
力 : 
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图 4-50 ”Virtual SAN 版 本 6 的 对 象 放置 (启用 故障 域 的 环境 ) 
: 放置 在 同一 个 服务 器 机 柜 之 内 的 服务 器 
" 共享 同一 供电 系统 的 服务 器 
. 数据 中 心 可 用 区 故障 
:网络 设备 故障 ， 如 共享 同一 个 架 顶 交换 机 的 服务 器 
* 闪存 设备 和 机 械 盘 故障 


在 故障 域 设计 中 ，FTT 功 能 必须 基于 故障 域 的 架构 来 配置 ， 而 不 是 基于 集群 中 的 主机 。 如 果 FTT=n， 就 需要 配置 2n+1 个 故 
障 域 。 如 果 故 障 域 没有 正确 配置 ， 无 法 保证 对 象 和 组 件 可 以 跨 故障 域 分 布 ， 部 署 时 就 会 发 生 错误 ， 因 为 没有 足够 的 故障 域 用 来 满 
足 虚 拟 机 的 存储 策略 需求 。 
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图 4-51 故障 域 设计 


表 4-28 和 图 4-52 则 展示 了 另 一 个 Virtual SAN 6 利用 故障 域 特征 的 例子 。 共 有 4 个 机 柜 ， 每 个 机 柜 中 有 两 台 主 机 ， 我 们 配置 
了 4 个 故障 域 。 


表 4-28 故障 域 示例 架构 


故 障 域 主 机 


FDIl ESX-1 和 ESX-2 
FD2 ESX-3 和 ESX-4 
( 续 ) 
故 障 域 主 机 
FD3 ESX-5 和 ESX-6 
FD4 ESX-7 和 ESX-8 


客户 的 设计 需求 是 消除 单个 机 柜 故障 所 带 来 的 影响 ， 因 此 FTT 功 能 配置 为 1。 


管理 员 可 以 通过 vSphere Web Client 或 ESXCLI 来 配置 图 4-52 所 示 的 故障 域 架构 。 要 简化 后 续 的 运 维 管 理 任务 ， 也 可 以 使 用 
主机 配置 文件 。 
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图 4-52 ”故障 域 示 例 架 构 
在 设计 故障 域 架 构 时 需要 考虑 以 下 一 些 因素 : 


: 设计 故障 域 时 ，FIT 功 能 必须 配置 为 支持 n 个 故障 域 故障 。 因 此 ， 设 计 需 要 2n+1 个 故障 域 而 不 是 2n+1 个 主机 。 这 样 才能 确 
保 数据 的 副本 跨 故 障 域 分 布 ， 而 不 只 是 存放 在 其 他 主机 上 ， 以 增加 Virtual SAN 集 群 应 对 多 台 主 机 故障 。 


-Virtual SAN 需 要 最 少 3 个 故障 域 ， 也 就 是 最 少 需 要 6 台 主 机 。 但 我 们 建议 在 可 能 的 情况 下 ， 最 好 有 4 个 或 更 多 的 故障 域 ， 以 
增加 兄 余 。 最 佳 实践 是 最 小 8 侣 主机 构成 4 个 故障 域 。 


“ 如 果 有 足够 多 的 主机 并 且 采 用 了 正确 的 设计 ， 故 障 域 架构 可 以 更 好 地 保护 基础 架构 ， 消 除 单 点 故障 。 


4.8 Virtual SAN 内 部 组 件 技术 


在 这 节 中 ， 我 们 介绍 可 用 性 架构 时 涉及 了 一 些 Virtual SAN 的 内 部 服务 和 机 制 。 即 使 这 些 内 部 组 件 技术 与 Virtual SAN 的 设计 
并 没有 直接 关系 ， 充 分 理解 客户 解决 方案 中 的 这 些 技术 也 是 非常 重要 的 。 对 于 架构 师 而 言 ， 利 用 自己 的 知识 向 客户 解释 这 些 技术 
以 佐证 设计 决策 ， 前 述 自己 对 方案 的 理解 是 理所当然 的 。 所 以 这 一 部 分 我 会 介绍 这 些 关 键 组 件 在 背后 是 如 何 运 作 的 ， 以 及 它们 之 
间 如 何 相互 协调 ， 以 支撑 Virtual SAN 在 客户 环境 中 的 功能 实现 。 


如 你 所 料 ，Virtual SAN 的 操作 依赖 各 种 组 件 服务 、 工 作 机 制 和 相关 技术 ， 所 有 这 些 无 颖 协作 才能 形成 一 个 分 布 式 的 数据 存 
储 平台 。 才 能 为 运行 在 集群 上 的 虚拟 机 负载 提供 连续 的 高 可 用 性 及 低 延 时 的 服务 ， 如 图 4-53 所 示 。 
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图 4-53 ”Virtual SAN 内 部 组 件 技术 和 驱动 架构 


下 面 的 部 分 是 每 一 个 Virtual SAN 服 务 和 机 制 的 简要 介绍 ， 以 及 它们 如 何 作 为 VMware 超 融 合 解决 方案 的 一 部 分 进行 运作 。 


4.8.1 可靠 数 据 报 传输 


可 靠 数 据 报 传输 (Reliable Datagram Transport，RDT) 用 来 实现 节点 之 间 的 集群 网 络 通信 。RDT 是 一 个 经 过 优化 的 、 用 
来 在 节点 之 间 发 送 大 文件 以 移动 对 象 数据 的 协议 ,一般 通过 多 条 路 径 在 逻辑 节点 之 间 发 送 数 据 报 文 。RDT 可 以 按照 CMMDS 发 布 
的 链 路 健康 状态 改变 信息 快速 建立 和 拆除 传输 连接 ， 以 最 小 化 链 路 故障 所 引起 的 延 时 。 


4.8.2 ”集群 监控 、 成 员 关 系 与 目录 服务 


集群 监控 、 成 员 关系 与 目录 服务 (CMMDs) 负责 发 现 、 建 立 和 维护 集群 的 网 络 节点 成 员 ， 检 测 节点 和 网 络 路 径 故 障 。 
CMMDSs 管 理 对 象 清单 ， 如 节点 、 设 备 、 网 络 ， 也 负责 存储 元 数据 信息 ， 如 策略 和 RAIN 配置 。CM MDSs 也 负责 为 其 他 Virtual 
SAN 组 件 服务 提供 数据 库 服务 。 


很 多 后 面 会 介绍 的 Virtual SAN 组 件 技术 可 以 通过 浏览 这 个 目录 或 订阅 更 新 来 了 解 集群 拓扑 结构 和 对 象 配置 的 变化 。 例 
如 ，DOM 和 LSOM 利 用 目录 的 内 容 来 判断 存储 对 象 组 件 的 节点 和 到 达 这 些 节 点 的 路 径 。 


集群 会 指派 一 个 CMMDS 主 控 ， 主 控 节 点 是 集群 之 中 的 主 节点 。 这 些 CMMDS 和 角色 在 集群 发 现 阶 篡 指定， 节点 通过 分 布 式 一 
致 协议 选举 出 主 控 。 主 控 负 责 发 现 、 建 立 和 维护 集群 目录 ， 以 及 管理 物理 集群 资源 。 这 些 角 色 都 是 由 系统 定义 的 ，vSphere 和 存储 
管理 员 不 能 配置 或 修改 一 个 节点 的 角色 。 


如 果 主 控 节 点 失效 又 没有 备份 ， 所 有 集群 节点 必须 整合 它们 的 目录 视图 到 新 的 主 控 节 点 ， 以 确保 目录 的 一 致 性 。 所 有 集群 节 
点 都 会 以 它们 的 视角 发 送 元 数据 到 新 的 主 控 节 点 。 提 前 选举 出 CMMDS 备 份 节点 可 以 加 速 这 一 过 程 。 


如 果 CMMDS 不 能 通信 或 更 新 信息 ，Virtual SAN 集 群 就 会 出 现 问题 。 发 布 到 CMMDS 目 录 的 信息 可 以 在 Virtual SAN 集 群 中 
的 任何 节点 上 使 用 命令 cmmds-tool 进 行 查 询 ， 还 可 以 在 日 志 vmkernel.log 中 看 到 高 级 别 的 CMMDS 日 志 消 息 。 


4.8.3 ”集群 级 对 象 管理 器 


集群 级 对 象 管理 器 (Cluster Level Object Manager，CLOM) 负责 在 创建 对 象 时 的 协调 与 安置 ， 是 一 个 负责 保证 对 象 和 
组 件 配置 满足 指定 人 存储 策略 需求 的 服务 。 


CLOM 在 组 件 需要 替换 时 调度 重建 操作 ， 也 负责 确保 有 足够 的 磁盘 组 用 来 存储 虚拟 机 文件 ， 在 执行 放置 操作 前 确保 满足 策 
略 。 此 外 ， 如 果 对 象 分 配 了 一 个 新 的 存储 策略 ，CLOM 处 理 那些 需要 创建 的 新 组 件 。 它 也 负责 与 其 他 主机 上 的 CLOM 通 信 以 寻找 
可 用 空间 。 然 后 DOM 会 按照 CLOM 的 指示 来 应 用 配置 。 


CLOM 是 一 个 存在 于 集群 中 每 台 主 机 用 户 模式 下 的 守护 进程 。 可 以 查看 进程 状态 ， 也 可 以 重新 启动 服务 ， 相 关 命 令 
是 /etc/init.d/clomd<status/restart>。CLOM 进 程 的 日 志 存 放 于 /var/log/clomd.log。 


4.8.4 ”分 布 式 对 象 管理 器 


分 布 式 对 象 管理 器 (Distributed Object Manager，DOM) 负责 处 理 对 象 可 用 性 和 初始 I/O 请 求 。 对 象 存在 于 DOM 
层 ，DOM 为 那些 由 LSOM 对 象 组 件 创建 的 Virtual SAN 对 象 或 VMDK 虚 拟 磁盘 提供 分 布 式 访问 。 如 图 4-54 所 示 ， 最 简单 的 集群 
级 别 对 象 是 由 两 个 或 更 多 组 件 构成 的 RAIN-1 镜 像 。 DOM 处 理 异步 |/O， 以 确保 镜像 的 所 有 部 分 都 是 一 致 的 。 


DOM 客 户 端 
相同 / 跨 主机 
相同 / 跨 主 机 





DOM 组 件 管理 器 DOM 组 件 管理 器 


LSOM LSOM 


VMFS/PSA VMFS/PSA 





图 4-54 ”分 布 式 对 象 管理 器 对 象 镜像 I/ 〇 路 径 


每 台 启 用 了 Virtual SAN 功 能 的 主机 上 只 有 一 个 DOM 客 户 端 ， 所 有 的 I/O 会 被 引导 到 DOM 客 户 端 ， 然 后 转发 到 DOM 的 所 有 
者 。 每 个 对 象 只 有 一 个 DOM 所 有 者 ， 尽 管 DOM 并 没有 本 地 的 概念 。DOM 所 有 者 可 以 是 一 台 并 不 存放 该 对 象 任何 组 件 的 主 
机 ，DOM 所 有 者 在 对 象 的 生命 期 内 可 以 改变 。 


DOM 存 在 于 内 核 空 间 ， 因 此 没有 进程 可 以 监视 或 者 在 不 重启 vSphere 主 机 的 情况 下 重启 服务 。 高 级 别 的 DOM 消 息 可 以 在 
vmkernel.log 中 查看 。 


4.8.5 ”本 地 日 志 结 构 对 象 管理 器 


本 地 日 志 结 构 对 象 管理 器 (LSOM ，Local Log，Structured Object Manager) 负责 处 理 IMO 并 确保 本 地 盘 上 组 件 的 一 致 
性 。 组 件 位 于 LSOM 层 。LSOM 从 DOM 接 收 MO， 写 操作 完成 后 返回 确认 消息 给 DOM。LSOM 也 负责 为 读 操作 返回 净 载 和 管理 
写 缓冲 、 读 缓存 ， 以 及 将 数据 写 入 容量 盘 。LSOM 对 分 布 式 、 仲 裁 和 IMO 同 步 无 感知 ， 这 些 事物 由 DOM 负 责 。LSOM 只 负责 处 理 
1/O。 


LSOM 存 在 于 内 核 空间 ， 没 有 进程 可 以 监视 ， 不 重启 vSphere 主 机 也 不 能 重启 这 个 服务 ， 高 级 别 的 LSOM 消 息 记录 在 
vmkernel.log 文 件 中 。 


4.8.6 “对象 仔 储 文 件 系统 


对 象 存储 文件 系统 (Object storage File System，OSFS) 负责 创建 Virtual SAN 数 据 存储 。OSFS 提 供 了 一 个 类 似 文件 系 
统 的 结构 ， 目 的 是 与 vSphere 保 持 向 后 兼容 性 。 实 际 上 Virtual SAN 数 据 存储 并 没有 目录 结构 。Virtual SAN 架 构 中 的 目录 是 
VMFS 的 一 种 对 象 格 式 ， 是 虚拟 机 命名 空间 对 象 类 型 。OSFS 负 责 这 些 命名 空间 对 象 的 初始 化 ， 并 将 它们 映射 成 友好 的 名 字 。 此 
外 ，OSFS 还 负责 挂 接 命名 空间 对 象 并 使 它们 能 够 被 Virtual SAN 数 据 存 储 集群 访问 。 


OSFS 是 用 户 模式 下 的 守护 进程 ， 存 在 于 Virtual SAN 集 群 中 的 每 一 台 主机 。 可 以 检查 进程 状态 ， 或 者 重启 服务 ， 命 令 
是 /etc/init.d/osfsd<status/restart>。OSFS 进 程 的 日 志 信 息 存 储 于 /var/log/osfsd.log。 


4.8.7 ”基于 存储 策略 的 管理 
基于 存储 策略 的 管理 在 本 章 已 经 提 过 。SPBM 框 架 使 得 vSphere 存 储 管理 员 能 够 通过 指定 存储 策略 到 每 个 对 象 来 实现 控制 。 
SPBM 利 用 VMware 的 存储 感知 API (VASA) ， 通 过 vCenter 和 每 一 台 vSphere 主 机 来 实现 策略 驱动 的 存储 服务 。 


SPBM 机 制 在 部 署 的 时 候 发 送 预定 义 的 存储 策略 到 CLOM。 当 一 个 新 的 策略 指派 到 虚拟 机 或 虚拟 磁盘 时 ， 策 略 会 被 改变 ， 并 
通过 SPBM 得 以 实现 。 对 象 的 状态 ， 包 括 分 布 、 重 新 配置 和 重 同步 ， 都 通过 SPBM 反 映 在 vSphere Web Client 之 上 。SPBM 的 日 
志 消 息 存储 于 vCenter 之 上 的 sps.log， 在 ESXi 主 机 上 则 是 /var.log.vsanvpd.log。 


4.9 Virtual SAN 集成 与 互 操作 
Virtual SAN 与 大 多 数 的 vSphere 高 级 存储 特性 都 实现 了 集成 与 互 操作 ， 但 还 是 有 一 些 存储 技术 不 相关 或 是 不 可 用 ， 不 被 启 


用 了 Virtual SAN 的 环境 所 支持 。 表 4-29 和 表 4-30 列 出 了 与 这 些 vSphere 存 储 特性 相关 的 设计 因素 。 


表 4-29 vSphere 存 储 特性 集成 与 互 操 作 








特 性 状 态 
VvSphere 高 可 用 (HA) 与 Virtual SAN 完全 互 操 作 
VSphere VMotion 与 Virtual SAN 完全 互 操作 
( 续 ) 





增强 的 vMotion 与 Virtual SAN 完全 互 操作 
分 布 式 资源 调度 (DRS ) 与 Virtual SAN 完全 互 操 作 


Virtual SAN 维护 一 个 集群 范围 的 数据 存储 ， 所 以 不 需要 集群 内 的 存储 在 线 迁 移 操 
vSphere svMotion 作 。 但 通过 svMotion 迁移 虚拟 机 到 外 部 数据 存储 ， 如 传统 块 设备 或 NFS 设备 ， 是 
Virtual SAN 所 支持 的 


对 称 多 处 理 容错 (SMP- | ”包括 ROBO 两 节点 部 署 的 Virtual SAN 集群 都 支持 SMP-FT。 但 是 SMP-FT 不 支持 


FT) Virtual SAN 延伸 集群 ， 因 为 数据 中 心 互联 链 路 会 带 来 额外 的 延 时 
i 与 Virtual SAN 完全 互 操 作 ， 并 提供 了 比 其 他 存储 解决 方案 更 好 的 特性 ， 如 5 分 钟 
VvSphere 复制 eb 
的 RPO 
主机 配置 文件 与 Virtual SAN 完全 互 操作 
数据 保护 VADP 与 Virtual SAN 完全 互 操 作 





从 Virtual SAN 版 本 6.1 开始 完全 支持 ,包括 ROBO 和 延伸 集群 部 署 类 型 。 使 用 单 
一 副本 存储 的 微软 故障 转移 集群 实例 不 被 支持 ， 因 为 Virtual SAN 集群 缺少 对 裸 设 备 
映射 (RDM) 的 支持 


Oracle RAC 从 Virtual SAN 6.1 版 本 开始 完全 支持 


Windows 服务 需 故 障 转 
移 集群 (WSFS) 





从 Virtual SAN 6.2 版 本 开始 完全 支持 。 所 有 的 SAP 应用， 包括 Business One 和 
SAP 基于 NetWeaver 的 产品 ， 都 文 持 在 生产 环境 中 运行 。 本 书写 作 之 时 ，SAP 尚 不 支持 
HANA 运行 在 包含 Virtual SAN 在 内 的 超 融合 系统 之 上 


快照 与 Virtual SAN 完全 互 操作 





虚拟 机 精简 置 与 Virtual SAN 完全 互 操 作 。SPBM 机 制 利用 对 象 空间 保留 功能 支持 精简 置 


表 4-30 不 相关 、 不 可 用 或 不 被 支持 的 vSphere 存 储 特性 


存储 分 布 式 资源 调度 Virtual SAN 数据 存储 不 支持 ， 因 为 Virtual SAN 使 用 的 是 一 个 集群 范围 内 的 分 布 
(SDRS ) 式 存 储 ， 所 以 不 需要 使 用 这 项 功能 


rirtual SAN 不 支持 ,分 布 式 存储 需要 连续 访问 主机 服务 器 上 的 存储 组 件 ， 因 此 与 


不 管理 ( 。 7 
分 布 式 电源 管理 (DPM) DpM 特性 不 能 共存 





存储 To 控制 (SIOC ) Virtual SAN 存储 服务 不 使 用 这 项 功能 。Virtual SAN 不 使 用 共享 存储 资源 ， 不 需要 





这 个 高 级 特性 
裸 设 备 有 映射 (RDM) 不 能 通过 Virtual SAN 数据 存储 配置 ， 但 是 可 以 通过 外 部 块 存 储 设备 提供 给 虚拟 机 


第 5 章 ”Virtual SAN 延伸 集群 设计 


如 图 5-1 所 示 ，Virtual SAN 6.1 版 本 支持 跨 两 个 物理 位 置 创建 一 个 城 域 级 别 的 延伸 集群 。 我 们 在 第 2 章 中 提 到 过 ， 延 伸 集 群 
不 是 新 概念 ， 存 储 厂商 很 多 年 以 前 就 提供 了 基于 硬件 的 解决 方案 。 虽 然 这 些 方案 工作 得 很 好 ， 也 能 满足 大 多 数 用 户 的 需求 ， 但 是 
高 成 本 是 硬件 的 一 贯 特 性 ， 复 杂 度 也 较 高 ， 运 维 难度 较 大 ， 一 直 阻 碍 着 一 些 企业 客户 和 服务 商 采 用 这 类 方案 。 


延伸 集群 (Stretched cluster) 是 一 种 基于 两 站 点 双 活 结构 ， 两 个 站 点 上 的 虚拟 化 层 都 能 够 访问 Virtual SAN 的 分 布 式 存 
储 。 带 宽 和 延迟 是 这 类 设计 中 的 关键 因素 。 在 Virtual SAN 延 伸 集群 架构 中 ， 所 有 的 读 请 求 都 由 虚拟 机 所 在 站 点 的 副本 来 服务 。 
但 是 数据 的 写 操作 必须 跨越 广域网 链 路 ， 因 此 必须 达到 一 个 可 接受 的 性 能 级 别 才能 保证 工作 正常 。 因 此 ， 存 放 数 据 镜像 的 站 点 位 
置 以 及 两 个 位 置 之 间 可 用 的 连接 是 我 们 在 设计 时 要 重点 考虑 的 。 


因为 数据 从 一 台 主 机 写 入 两 个 位 置 ， 这 会 增加 网 络 配置 的 复杂 性 。 另 外 ， 还 有 一 个 关键 点 是 解决 方案 如 何 应 对 站 点 间 的 通信 
故障 ， 以 避免 两 个 站 点 之 间 的 链接 中 断 时 出 现 “ 脑 裂 ”。 


还 要 考虑 当主 机 故障 时 如 何 重新 启动 虚拟 机 ， 在 本 地 站 点 还 是 远程 站 点 重启 ? 使 用 关联 规则 可 以 避免 在 数据 中 心 之 间 出 现 不 
必要 的 vMotion 操 作 ， 这 会 影响 读 绥 存 性 能 ， 并 导致 不 必要 跨 站 点 流量 泛滥 。 客 户 也 会 要 求 将 相互 关联 的 应 用 放置 在 一 起 ， 以 优 
化 性 能 ， 如 果 把 这 些 应 用 分 布 到 两 个 物理 站 点 可 能 会 带 来 额外 的 延 时 。 


延伸 集群 环境 的 应 用 场景 必须 在 客户 的 需求 中 定义 清楚 。 能 做 并 不 代表 你 应 该 做 ， 除 了 成 本 的 增加 ， 如 果 运 维 团队 不 能 充分 
理解 这 种 方案 ， 还 可 能 会 增加 环境 的 复杂 度 。 


下 面 是 一 些 你 在 评估 设计 中 是 否 使 用 延伸 集群 时 需要 重点 考虑 的 业务 需求 : 


延伸 集群 架构 延伸 集群 架构 
负载 数据 中 心 A 负载 数据 中 心 B 


感 盘 组 磁盘 组 
国 | 国 


国 目 
QQQQ QQQQ QQ Qe 9B9B 9BBB 9BBB QOD 


vSphere DRS 主 机 组 vSphere DRS 主 机 组 





图 5-1 Virtual SAN 延 伸 集 群 


. 构成 Virtual SAN 高 可 用 延伸 集群 的 vSphere 主 机 应 该 平均 分 布 在 两 个 站 点 ， 要 有 足够 的 容量 来 实现 虚拟 机 的 迁移 和 故障 切 
换 。 


. 镜像 的 Virtual SAN 存 储 配 置 必须 跨越 两 个 数据 中 心 提供 。 

. 二 层 互 联 ， 足 够 的 带宽 ， 站 点 间 连 接 必须 是 低 延 时 的 ， 以 保证 同步 存储 平台 的 正常 工作 。 
- 混合 与 全 闪 磁 盘 组 架构 都 支持 延伸 集群 。 

" 延伸 集群 需要 Virtual SAN 6.1 以 上 版 本 ， 因 此 必须 采用 vSphere 6 作为 核心 平台 。 


Virtual SAN 延 伸 集 群 需 要 使 用 VitrstoFS 版 本 2 磁盘 格式 。 


: 站 点 间 IP 网 络 的 最 大 双向 延迟 不 能 超过 5 毫秒 。 


: 延伸 集群 上 虚拟 机 所 使 用 的 任何 IP 子 网 ， 必 须 能 够 被 两 个 站 点 上 的 vSphere 主 机 所 访问 。 这 才能 确保 庶 拟 机 通过 高 可 用 或 


vMotion 操 作 跨 站 点 迁移 后 工作 正常 。 
. vCentet 必 须 能 够 连接 和 管理 两 个 数据 中 心 的 vSphete 主 机 。 
.Virtual SAN 高 可 用 延伸 集群 所 支持 的 主机 数量 不 能 超过 30 台 ， 每 个 站 点 15 台 。 
.Virtual SAN 延 伸 集 群 不 支持 纠 删 码 RAID 5 和 RAID 6 配置 。 


. 延伸 集群 需要 Virtual SAN 企 业 版 许可 。 


5.1 延伸 集群 使 用 场景 


Virtual SAN 延 伸 集群 的 典型 应 用 场景 包括 全 部 数据 中 心 站 点 的 透明 维护 需求 ， 灾 难 避 免 和 自动 恢复 负载 。 


整个 物理 数据 中 心 级 别 的 维护 能 力 ， 对 最 终 用 户 和 应 用 的 所 有 者 而 言 是 透明 的 ， 这 可 以 带 来 很 大 的 运 维 和 业务 价值 。 例 如 ， 
可 以 对 一 个 数据 中 心 实施 计划 内 维护 而 不 会 导致 服务 中 断 ， 帮 助 避免 因为 计划 内 停机 而 向 应 用 的 所 有 者 提出 元 长 、 繁 杂 的 批复 请 


延伸 集群 的 男 一 个 典型 的 应 用 场景 是 灾难 避免 ， 为 应 用 制定 灾难 避免 策略 可 以 在 预知 的 灾难 (如 飓风 或 洪水 ) 发 生 之 前 防范 
停机 。 因 此 ， 使 用 延伸 集群 可 以 帮助 上 T 部 门 为 业务 提供 零 停 机 和 零 数据 丢失 服务 。 为 一 个 莒 收 应 用 提供 连续 不 断 的 可 用 性 不 仅 是 
IT 的 价值 ， 也 使 企业 更 有 竞争 力 。 


延伸 集群 的 最 后 一 个 传统 应 用 场景 是 利用 vSphere 的 高 可 用 功能 为 虚拟 机 提供 一 个 跨 站 点 自动 恢复 的 机 制 。 这 种 解决 方案 可 
以 为 计划 外 停机 事件 提供 接近 于 零 的 恢复 时 间 目 标 (RTO) 和 恢复 点 目标 (RPO) 。 为 虚拟 机 提供 这 种 类 型 的 自动 化 可 以 让 IT 运 
维 团 队 在 数据 中 心 架构 出 现 缺失 时 关注 应 用 的 健康 ， 而 不 是 平台 或 操作 系统 的 可 用 性 。 


5.2 ”故障 域 架构 


Virtual SAN 延 伸 集群 是 在 Virtual SAN 原 有 的 故障 域 架构 (fault domain architecture) 基础 上 实现 的 ， 但 是 一 个 延伸 集 
群 最 多 只 能 配置 3 个 故障 域 ， 如 图 5-2 所 示 ， 第 1 个 故障 域 是 负责 的 首选 (preferred) 站 点 ， 第 2 个 故障 域 通常 只 用 来 存放 延伸 集 


存储 策略 ， 在 首选 或 非 首 选 故 障 域 故 障 的 情况 下 可 以 保持 虚拟 机 对 象 的 可 用 性 。 


见证 虚拟 设备 故障 域 只 用 来 存放 见证 虚拟 机 ， 不 能 用 来 承载 其 他 的 延伸 集群 负载 。 


5.3 ”见证 设 


Virtual SAN 延 伸 集 群 需要 使 用 一 个 见证 设备 ， 必 须 放置 在 第 3 故障 域 。 这 个 位 置 也 可 以 由 受 上 T 部 门 管理 的 第 三 方 数据 中 心 来 
提供 ， 或 者 部 署 到 一 个 公有 云 平 台 。 


见证 设备 是 一 个 谋 套 的 ESXi 设 备 ， 经 专门 修改 用 来 在 延伸 集群 架构 中 提供 仲裁 功能 。 见 证 设备 通过 OVA 文 件 部 署 到 vSphere 
主机 ， 配 置 有 两 个 vCPU，8GB 到 32GB 内 存 (可 配置 ， 取 决 于 环境 大 小 ) 。 


作为 一 个 嵌 套 的 Virtual SAN 主 机 ， 见 证 设备 既 需 要 闪存 也 需要 机 械 盘 。 这 些 在 部 署 时 都 会 被 配置 好 ， 设 备 的 一 个 VMDK 会 
被 标记 为 内 存 设备 。Virtual SAN 管 理 员 不 需要 手工 配置 这 个 设备 ， 也 不 需要 为 承载 这 个 见证 设备 的 vSphere 主 机 配置 物理 闪存 
设备 。 如 果 需 要 ， 所 有 的 见证 虚拟 磁盘 可 以 采用 精简 置 备 。 


见证 虚拟 设备 通常 已 经 提供 了 最 大 的 灵活 性 和 方便 运 维 的 配置 ，Virtual SAN 延 伸 集群 也 可 以 使 用 物理 主机 作为 见证 设备 。 
但 是 这 会 降低 见证 设备 设计 和 部 署 的 灵活 性 并 增加 成 本 ， 这 包括 服务 器 硬件 、vSphere 许 可 和 维护 开销 ， 而 见证 虚拟 设备 已 经 包 
含 了 一 个 嵌入 式 许可 ,没有 额外 的 费用 。 


见证 设备 只 存放 元 数据 ， 不 用 来 承载 任何 虚拟 机 。 每 个 见证 组 件 只 需要 占用 16MB 的 存储 空间 。Virtual SAN 集 群 中 的 每 一 
个 对 象 需要 一 个 见证 组 件 。 










见证 数据 中 心 
或 公有 去 平台 








延伸 集群 架构 - 延伸 集群 架构 
工作 负载 数据 中 心 A 工作 负载 数据 中 心 B 





图 5-2 ”延伸 集群 故障 域 架 构 


见证 设备 上 存放 的 组 件数 量 反映 了 与 那些 运行 在 延伸 集群 上 虚拟 机 相关 的 对 象 数量 。 每 个 虚拟 机 至 少 需要 一 个 虚拟 磁盘 
(VMDK) 、 一 个 命名 空间 、 一 个 交换 文件 。 因 此 ， 每 个 虚拟 机 至 少 有 3 个 对 象 ， 每 生成 一 个 快照 都 会 给 每 个 VM DK 增 加 一 个 对 
象 。 但 通过 每 对 象 磁盘 条 带 数 量 来 增加 额外 的 条 带宽 度 不 会 增加 与 虚拟 机 相关 的 对 象 数量 。 


如 表 5-1 所 示 ， 在 部 署 见证 设备 的 过 程 中 ，vSphere 管 理 员 需要 提供 3 个 规格 选项 ， 与 环境 大 小 密切 相关 ， 选 择 最 合适 的 选项 
可 以 确保 有 足够 的 存储 和 内 存 资 源 用 来 为 运行 在 延伸 集群 平台 上 的 每 一 台 虚 拟 机 部 署 见证 设备 。 


表 5-1 见证 设备 规格 配置 选项 





5.4 ”网络 设计 需 


Virtual SAN 延 伸 集群 需要 拓扑 中 所 有 3 个 站 点 之 间 有 互联 。 要 实现 一 个 延伸 架构 ,一些 关 键 的 设计 需求 必须 能 够 满足 。 下 
面 是 一 些 在 主 从 站 点 之 间 必 须 满足 的 关键 网 络 指标 : 


. 所 有 3 个 站 点 之 间 必 须 有 vSphere 管 理 网 络 连 接 。 

. 所 有 3 个 站 点 之 间 必 须 有 Virtual SAN 网 络 连 接 。 

. 在 主 从 负载 站 点 之 间 必 须 有 vMotion 网 络 连接 ， 以 实现 虚拟 机 的 在 线 迁 移 。 

* 在 主 从 负载 站 点 之 间 需 要 为 虚拟 机 配置 二 层 网 络 连接 。 

- 在 负载 站 点 和 见证 设备 主机 位 置 之 间 需要 有 三 层 网 络 连 接 。 

如 表 5-2 所 示 ， 这 些 配置 中 的 关键 点 是 数据 中 心 之 间 的 二 层 连 接 。 关 于 这 个 配置 也 有 一 些 变通 ， 三 层 网 络 也 支持 一 些 流量 类 
型 。 但 是 在 典型 的 延伸 集群 设计 中 ， 负 载 站 点 应 该 为 所 有 虚拟 机 网 络 提供 相同 的 二 层 延 伸 网 络 ， 这 可 以 简化 设计 并 降低 运 维 开 
销 。 
表 5-2 Virtual SAN 延 伸 集 群 二 层 与 三 层 网 络 需求 


流量 类 型 支持 的 配置 设计 建议 


对 于 vSphere 管理 流量 ， 两 个 选项 都 适用 ， 但 是 为 


SC 


管理 网 络 流量 - 层 延 伸 或 三 层 路 由 ea ar RE 
2 | 了 简化 设计 和 运 维 ， 尽 可 能 采用 二 层 配置 

Virtual SAN 网 络 流量 负载 站 点 间 二 层 延 伸 ， 负 建议 在 主 从 负载 站 点 间 为 Virtual SAN 网 络 流量 配置 
”| 载 站 点 与 见证 站 点 间 三 层 连接 | 二 层 延伸 ， 在 生产 站 点 和 见证 站 点 间 配 置 三 层 网 络 


. A es 对 于 vSphere vMotion 流量 ， 两 个 选项 都 可 用 ， 要 提 
络 流量 `“ 层 延伸 或 三 层 中 1 
VvMotion 网 络 流量 . 层 延 伸 或 三 层 路 由 供 不 中 断 迁 移 运 行 态 虚拟 机 的 功能 ， 必 须 配置 二 层 网 络 





ea 本 要 在 主 从 数据 中 心 之 间 移 动 虚拟 机 负载 而 不 需 修改 
虚拟 机 网 络 流量 . 层 IP 地 址 ， 需 要 一 层 网 络 

如 图 5-3 所 示 ， 虚 拟 机 网 络 构 建 在 二 层 扩 展 网 络 上 是 非常 必要 的 ， 这 样 在 vMotion 或 HA 恢复 过 程 中 就 不 需要 改变 客户 机 操作 
系统 的 IP 地 址 了 。 如 果 目 标 端 口 组 与 源 端 口 组 不 使 用 相同 的 二 层 地 址 空间 ， 客 户 操 作 系 统 的 网 络 连 接 会 丢失 。 延 伸 的 二 层 网 络 是 
一 个 设计 关键 。 


VMware 不 建议 使 用 某 种 特定 的 二 层 网 络 延伸 技术 。 任 何 一 种 可 以 为 每 个 物理 站 点 上 的 vsphere 主 机 提供 相同 二 层 网 络 的 技 
术 都 可 以 ， 因 为 实际 的 网 络 配置 与 延伸 集群 设计 中 的 主机 无 关 。 一 些 经 过 验证 的 例子 包括 虚拟 扩展 LAN (VXLAN) 、VMware 
NSX 二 层 网 关 服 务 、Cisco 层 去 传输 虚拟 化 (OTV) ， 以 及 GIF/GRE 隧 道 等 。 对 于 源 和 目标 站 点 之 间 的 最 大 网 络 距离 也 没有 定 
义 ， 只 要 满足 表 5-3 所 列 要 求 即 可 。 


表 5-3 网络 带宽 和 延 时 需求 


连接 类 型 
负载 数据 站 点 之 间 的 网 络 | ”强烈 建议 采用 10Gb/s| 二 层 或 三 层 网 络 连 接 ， 
: 返 延 时 小 于 5 毫秒 a 
需求 或 更 好 的 连接 往返 延 时 小 于 5 襄 秒 | 支持 组 揪 


到 见证 故障 域 的 网 络 需求 100 Mb/s 连接 往返 延 时 小 于 200 毫秒 : 层 网 络 连接 


Virtual SAN 延 伸 集 群 对 双向 互联 网 络 的 带宽 和 延 时 都 有 严格 要 求 ， 图 5-4 描 述 了 表 5-3 中 所 设 定 的 带宽 和 延 时 需求 。 





延伸 集群 架构 延伸 集群 架构 
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图 5-3 ”二 层 延 伸 





见证 数据 中 心 
或 公有 云 平台 








最 大 延 时 小 于 200 毫 秒 
100 Mbps 带 宽 
三 层 无 组 播 


最 大 延 时 小 于 200 毫 秒 
100 Mbps 带 宽 
三 层 无 组 播 
















延伸 集群 架构 
工作 负载 数据 中 心 B 


延伸 集群 架构 
工作 负载 数据 中 心 A 


mammamd | | 


延 时 小 于 5 毫秒 
带宽 高 于 10、20、40 Gbps 的 二 层 网 络 且 支 持 组 播 


图 5-4 Virtual SAN 延 伸 集 群 概览 


5.4.1 ”距离 和 延 时 


两 个 负载 站 点 之 间 的 互联 是 延伸 集群 解决 方案 设计 中 的 重点 。 因 此 ， 在 设计 一 个 由 Virtual SAN 延 伸 集 群 提供 连续 可 用 和 灾 


难 恢复 功能 的 解决 方案 时 ， 必 须 仔 细 理 解 链 路 容量 和 延 时 等 因素 。 


延伸 集群 架构 的 一 个 需求 是 vSphere 源 和 目标 主机 之 间 的 往返 延 时 必须 小 于 5 毫秒 。 因 此 我 们 必须 考虑 方案 的 可 行 性 ， 这 决 


定 了 两 个 数据 中 心 之 间 的 距离 可 以 有 多 远 。 尽 管 有 很 多 可 变 因 素 ， 但 通常 来 说 ， 网 络 延 时 取决 于 距离 。 所 以 这 个 5 毫秒 的 响应 时 
间 需 要 转换 成 站 点 间 的 物理 距离 。 


表 5-4 给 出 了 一 些 示例 距离 和 它们 对 应 的 链 路 延 时 。 这 里 列 出 的 数值 是 估计 值 ， 互 联网 络 的 质量 、 跳 数 和 物理 结构 会 对 延 时 


产生 较 大 的 影响 。 这 张 表 并 没有 考虑 其 他 的 环境 因素 ， 在 Virtual SAN 延 伸 集 群 的 设计 中 ， 站 点 间 绝 对 距离 的 限制 通常 小 于 500 


公里 。 


表 5-4 距离 和 估计 的 链 路 延 时 

















大 约 距离 (公里 ) 单 向 延 时 (毫秒 ) 双向 延 时 ( 毫秒 ) 
50 0.25 0.5 
100 0.5 1 
200 1 2 
400 2 4 
500 2.5 5 








5.4.2 ” 融 宽 需求 计算 
和 计算 容量 存储 及 耐久 型 闪存 需求 类 似 ， 计 算 延 伸 集群 互联 网 络 带 宽 需 求 也 需要 使 用 各 种 公式 ， 通 过 对 现存 负载 的 状态 分 析 
来 收集 大 量 的 数据 ， 也 要 注意 耐久 型 闪存 设备 的 性 能 指标 。 因 为 负载 和 互联 链 路 性 能 的 变化 ， 这 些 数字 还 得 仔细 分 析 。 


如 前 所 述 ， 强 烈 建 议 在 两 个 负载 数据 中 心 之 间 使 用 二 层 互联 。 这 个 建议 是 基于 在 虚拟 机 发 生 故 障 切换 之 后 重新 配置 |P 地 址 会 
增加 运 维 开 销 ， 不 容易 实现 自动 化 ， 在 大 多 数 情况 下 从 应 用 的 角度 看 都 不 太 实际 。 此 外 ， 跨 越 三 层 网 络 配置 组 播 也 很 复杂 ， 不 便 
于 维护 。 因 此 ， 利 用 适当 的 技术 在 延伸 集群 中 建立 二 层 网 络 是 设计 的 基础 。 


带宽 需求 取决 于 负载 ， 特 别 是 集群 中 每 台 主 机 的 写 操作 数量 。 在 计算 时 也 需要 考虑 其 他 因素 ， 如 重 构 操作 ， 但 这 次 我 们 主要 
考虑 写 操作 ， 面 向 耐久 型 闪存 设备 的 写 操作 。 


1Gb/s 是 满足 需求 的 最 小 带宽 ， 但 我 们 强烈 建议 采用 10Gb/s， 对 于 大 多 数 企 业 应 用 而 言 ，10Gb/s 的 网 络 才 够 用 。 


在 两 个 负载 数据 中 心 之 间 通 过 二 层 网 络 传 递 一 个 4KB 的 写 |/O， 经 过 计算 得 知 大 约 需 要 125Kb/s 的 带宽 。 我 们 可 以 利用 这 个 
关系 ， 再 结合 下 面 的 公式 ， 计 算 带 宽 需 求 。 在 下 面 的 公式 中 ，Hst 指 延伸 集群 中 总 的 主机 数量 ，No.of 4KB 1OPS 等 于 每 个 节点 
4KB IOPS 的 数量 。 


互联 网 络 带宽 计算 可 以 采用 如 下 方式 计算 。 
公式 : HstxNo.of 4KB IOPSx125Kb/s= 所 需 的 带宽 
示例 : 12 节 点 x1000IOPSx125Kby/s = 24000000Kb/s (2.4Gb/s) 


在 示例 计算 中 ， 我 们 假定 高 端 耐久 型 闪存 设备 在 顺序 写 时 能 够 达到 的 最 大 利用 率 大 约 是 1500x256KB IOPS。 集 群 中 每 个 站 
点 的 6 台 主 机 上 各 配置 一 个 混合 磁盘 组 ， 各 需要 一 个 内 存 设备， 因此 是 6+6+1，1 代 表 见 证 设备 。 


这 就 意味 着 使 用 闪存 设备 时 ，4KB 写 IOPS 的 最 大 数量 是 16000。 根 据 前 面 的 公式 ，12 个 节点 的 集群 等 于 12 节 点 
x16000IOPSx125Kb/s， 结 果 得 出 24000000Kb/s， 即 需要 在 两 个 负载 数据 中 心 之 间 提 供 2.4Gb/s 的 带宽 。 


但 是 这 种 计算 没有 考虑 到 其 他 的 环境 变化 和 因素 ， 例 如 读本 地 优先 策略 是 否 被 修改 ， 互 联网 络 是 否 同 时 服务 其 他 流量 (如 
vMotion 引 起 的 突 发 流量 ) 等 ， 这 是 非常 有 可 能 的 。 


缺 省 情况 下 ， 延 伸 集群 中 的 读 请 求 总 是 发 生 在 本 地 。 但 是 如 果 主 机 或 磁盘 发 生 了 故障 ， 读 请 求 就 需要 通过 数据 中 心 互联 网 络 
来 服务 ， 如 果 在 设计 时 不 加 考虑 ， 这 种 临时 增加 的 流量 会 导致 广域网 链 路 拥塞 。 


况且 ， 在 一 些 特定 的 应 用 场景 下 〈 如 数据 中 心 内 部 可 用 区 、 没 有 可 用 带宽 的 区 域 ， 或 者 延迟 是 主要 的 设计 因素 等 ) ， 延 伸 集 


群 的 读本 地 优先 在 需要 时 可 以 被 关闭 。 如 果 设 计 需 要 关闭 读本 地 优化 功能 ， 我 们 可 以 使 用 相同 的 公式 (每 4KB 读 IOPS 占 用 


125Kb/s 带 宽 ) 来 计算 额外 的 读 请 求 带宽 需求 。 


其 他 的 带宽 需求 来 自 于 某 个 物理 组 件 故 障 或 从 集群 中 移 除 时 发 生 的 重 同步 和 重 构 操 作 。 设 计 的 目标 是 当 这 些 I/O 密 集 型 操作 
发 生 时 不 会 影响 到 正在 运行 的 应 用 。 下 面 的 公式 可 以 用 来 计算 重 同 步 和 重 构 操 作 的 带宽 需求 。 


例如 ， 如 果 设 计 需 要 能 够 应 对 一 个 1.2TB SAs 盘 故障 ， 且 重 构 操 作 不 应 超过 1 个 小 时 ， 因 此 磁盘 重 构 的 最 大 速率 是 
300MB/s， 则 重 构 期 间 的 带宽 需求 会 不 少 于 2.4Gb/s， 下 面 是 计算 方法 。 


1.08TB 每 小 时 = 二 18GB 每 分 钟 
18GB/60=300MB/s 


300MB/s=2.4Gb/s 


5.5 ”延伸 集群 部 署 场景 


为 避免 设计 中 的 网 络 环 路 ， 不 建议 在 全 部 3 个 站 点 之 间 构 建 二 层 网 络 。 这 种 配置 会 给 网 络 设计 增加 不 必要 的 复杂 度 。 图 5-5 
展示 了 最 佳 的 二 层 和 三 层 网 络 拓扑 结构 。 

这 种 优化 的 设计 在 两 个 负载 站 点 之 间 提 供 二 层 配 置 ， 在 每 个 负载 站 点 和 见证 站 点 之 间 采 用 三 层 连接 。 无 论 哪个 生产 数据 中 心 
出 现 故 障 ， 这 种 设计 都 可 以 防止 一 个 生产 数据 中 心 的 网 络 流量 经 过 见证 站 点 流 到 另 一 个 生产 数据 中 心 。 这 种 情况 一 旦 发 生 ， 性 能 
会 极 剧 下 降 ， 因 为 连接 到 见证 站 点 的 网 络 是 高 延 时 、 低 带宽 的 链 路 。 
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图 5-5 延伸 集群 优化 的 二 层 和 三 层 配 置 


2.6 缺 省 网 天 和 静态 路 由 


通过 二 层 网 络 相连 的 Virtual SAN 延 伸 集 群 主机 ， 可 以 通过 Virtual SAN 网 络 相互 通信 ， 同 时 也 需要 能 够 通过 三 层 网 络 与 见证 
设备 通信 。 建 议 的 解决 方案 是 使 用 静态 路 由 (static route) ， 使 负载 站 点 上 的 主机 能 够 找到 通 往 第 3 站 点 见证 设备 的 网 络 路 径 。 
也 可 以 使 用 同样 的 方法 让 见证 设备 能 够 与 生产 数据 中 心里 的 主机 通信 。 


对 于 生产 数据 中 心里 的 ESXi 主 机 来 说 ， 静 态 路 由 必须 配置 在 Virtual SAN 网 络 中 ， 这 样 才能 通过 指定 的 网 关 地 址 传送 流量 到 
见证 设备 。 对 于 见证 设备 ， 也 必须 在 Virtual SAN 网 络 添加 静态 路 由 ， 指 示 网 络 流量 如 何 到 达 生 产 数 据 中 心 。 这 个 配置 任务 可 以 


通过 esxcli network ip route 命 令 来 完成 。 


此 外 ， 根 据 设 计 ， 还 可 能 需要 为 ESXi 管 理 网 络 连 接 添加 静态 路 由 ，vCenter Server 必 须 能 够 通过 管理 网 络 管理 所 有 vSphere 
主机 ， 包 括 生产 数据 中 心 和 第 3 站 点 上 的 见证 设备 。 对 于 vM otion 网 络 流量 来 说 ， 应 该 不 需要 额外 的 配置 ， 因 为 vVMotion 操 作 只 
会 发 生 在 生产 数据 中 心 ， 与 见证 站 点 无 关 。 


5.7 ”延伸 集群 存储 策略 设计 


在 Virtual SAN 延 伸 集 群 配置 中 ， 可 容忍 的 故障 数 (FTT) 必须 配置 为 1， 这 是 延伸 集群 设计 所 能 支持 的 最 大 也 是 唯一 的 数 


值 。 因 为 只 有 3 个 故障 域 ， 如 果 3 个 站 点 中 只 有 两 个 可 用 ，FTT 功 能 将 会 是 强制 置 备 状态 ，CLOM 进 程 负责 解决 不 合 规 问题 。 等 到 
第 3 个 站 点 恢复 正常 以 后 ， 受 影响 的 对 象 会 重新 回 到 合 规 状态 。 


全 + 总 使 用 纠 删 码 的 全 闪存 配置 不 被 延伸 集群 所 支持 ， 因 为 两 个 数据 中 心 的 数据 都 需要 额外 的 镜像 拷贝 。 


5.8 ”首选 和 非 首 选 站 点 概念 


为 了 配合 Virtual SAN 的 故障 域 机 制 ， 在 延伸 集群 中 需要 首选 站 点 。 其 中 一 个 生产 数据 中 心 被 指定 为 首选 的 故障 域 ， 以 应 对 
活动 站 点 之 间 的 链 路 中 断 导 臻 “ 脑 裂 ”。 首选 故障 域 决定 见证 设备 加 入 哪个 活动 站 点 ， 该 站 点 将 保持 存活 。 通 常 来 说 ， 作 为 首选 
站 点 的 数据 中 心 有 最 高 的 可 用 性 级 别 。 


例如 ， 延 伸 集群 中 的 虚拟 机 可 以 运行 在 任何 一 个 站 点 。 如 果 两 个 生产 数据 中 心 之 间 的 网 络 连 接 中 断 ， 但 是 两 个 站 点 到 见证 站 
点 的 连接 都 还 正常 ， 首 选 数据 中 心 保持 存活 ， 非 首选 数据 中 心 标记 为 停止 工作 ， 以 使 vsphere HA 进行 做 出 正确 响应 。 


5.9 ”延伸 集群 读 / 写 本 地 化 


因为 虚拟 机 组 件 跨越 两 个 物理 上 相互 独立 的 数据 中 心 ， 你 会 想到 读 写 请 求 的 延 时 会 增加 ， 因 为 这 些 请 求 要 穿越 两 个 数据 中 心 
之 间 的 互联 网 络 。 实 际 的 情况 如 图 5-6 所 示 ， 延 伸 集 群 中 采用 了 新 的 读 算法 ， 所 有 的 读 请 求 由 本 地 站 点 服务 ， 计 算 和 存储 资源 在 
本 地 站 点 都 有 。 这 与 通常 情况 下 所 采用 的 轮 询 机 制 ( 即 ， 从 所 有 可 用 的 组 件 副本 轮流 读 取 的 方法 ) 是 完全 不 同 的 。 


这 种 专 为 延伸 集群 而 设计 的 新 算法 消除 了 跨 站 点 读 取 数据 可 能 带 来 的 高 延 时 风险 。 但 如 果 两 个 生产 数据 中 心 之 间 的 延 时 小 于 
1 毫秒 且 有 足够 的 带宽 ， 也 可 以 禁用 这 种 新 的 读本 地 化 算法 ， 继 续 使 用 轮 询 算法 。 改 变 这 个 参数 可 以 将 50% 的 读 请 求 发 送 到 远 端 
数据 中 心 处 理 ， 这 会 导致 跨 站 点 网 络 连 接 的 利用 率 急剧 增长 。 因 此 我 们 不 建议 你 修改 这 个 参数 ， 除 非 是 某 些 特定 的 场景 ， 例 如 延 
伸 集 群 跨越 的 是 同一 个 物理 位 置 上 的 两 个 独立 可 用 区 ， 这 种 情况 下 延 时 非常 低 ， 也 无 需 担心 带宽 利用 率 。 


配置 了 Virtual SAN 延 伸 集 群 后 读本 地 化 算法 缺 省 启用 ， 修 改 高 级 参数 VSAN.DOMOwnerForceWarmCache 可 以 将 其 禁 
用 ， 这 个 设置 在 vsphere Web Client 中 不 可 见 ， 只 在 CLI 中 可 用 。 
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图 5-6 ”延伸 集群 本 地 读 操 作 解 析 


有 一 个 由 读本 地 化 机 制 所 带 来 的 变化 需要 引起 注意 ， 虚 拟 机 迁移 到 另 一 个 数据 中 心 后 会 发 生 什么 ? 当 vMotion 操 作 完 成 后 ， 
所 有 的 读 请 求 将 由 新 站 点 来 服务 。 在 读 缓冲 预 热 完成 之 前 会 有 一 个 性 能 损失 。 本 章 后 面 会 介绍 ，Virtual SAN 的 设计 会 防止 这 种 
跨 站 点 的 vMotion 事 件 频 繁 发 生 。 


如 图 5-7 所 示 ， 写 请 求 就 没有 本 地 化 机 制 了 。 要 跨 生产 数据 中 心 保持 数据 的 一 臻 性， 必须 在 收 到 来 自 两 个 站 点 的 写 操 作 确 认 
之 后 才 会 向 操作 系统 或 应 用 发 送 写 确 认 。 为 了 确保 数据 的 可 用 性 ， 需 要 以 少量 的 性 能 损失 为 代价 ， 这 种 性 能 损失 是 由 跨 站 点 传输 
延 时 导致 的 。 


最 后 ， 写 操作 通常 不 包括 与 见证 设备 间 的 通信 ， 因 此 ， 生 产 数据 中 心 与 见证 站 点 之 间 的 延 时 增加 并 不 会 影响 写 性 能 。 
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图 5-7 延伸 集群 写 操 作 解 析 


5.10 分布 式 资 源 调 度 器 配置 


在 Virtual SAN 延 伸 集 群 中 ，vSphere 分 布 式 资源 调度 器 (DRS) 用 来 定义 关联 规则 ， 帮 助 防范 不 必要 的 停机 ， 利 用 负载 的 
站 点 关联 规则 减少 站 点 间 流 量 开销 ， 并 确保 不 必要 的 跨 站 点 viMotion 发 生 。 


建立 配置 虚拟 机 的 主机 关联 规则 以 确保 虚拟 机 在 正常 工作 的 情况 下 总 是 运行 于 相同 主机 ， 该 主机 是 特定 组 件 的 主要 读 取 节 
点 。 在 延伸 集群 设计 中 ， 这 种 方法 可 以 确保 主机 关联 与 Virtual SAN 跨 站 点 存储 配置 保持 一 致 。 


如 图 5-8 所 示 ， 应 该 在 Virtual SAN 延 伸 集群 中 为 虚拟 机 配置 主机 关联 规则 ， 以 确保 负载 与 它 的 组 件 在 同一 站 点 ， 在 正常 工 
作 的 情况 下 不 做 跨 站 点 迁移 ， 保 持 所 有 的 读 MO 在 本 地 。 此 外 ， 也 能 保证 在 站 点 间 链 路 发 生 临 时 或 间歇 性 故障 时 ， 虚 拟 机 不 会 与 
它 的 存储 失去 连接 。 
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图 5-8 延伸 集群 vSphere DRS 关 联 规则 配置 


强烈 建议 在 设计 中 使 用 应 该 规则 (should rule) 而 不 是 必须 规则 (must rule) 。 这 就 能 保证 在 出 现 故 障 时 服务 的 可 用 性 永 
远 优先 于 性 能 。 如 果 使 用 了 必须 规则 ，vSphere HA 就 不 能 违反 规则 集 ， 在 需要 的 时 候 虚 拟 机 却 不 能 在 另 一 站 点 重新 启动 ， 从 而 
导致 服务 中 断 。vSphere DRS 会 将 这 些 规则 传递 给 HA， 用 来 管制 虚拟 机 开机 。 因 此 一 旦 整个 数据 中 心 都 出 现 故障 ， 关 联 规则 会 
阻止 HA 在 另 一 个 数据 中 心 启动 这 些 虚 拟 机 。 


要 人 允许 vSphere DRSs 在 某 些 特定 的 情况 下 违反 应 该 规则 ， 如 大 量 主机 负载 较 满 ， 虽 然 这 种 情况 很 少见 。 运 维 团 队 要 对 这 些 
违反 规则 的 情况 进行 监控 ， 因 为 这 些 情况 会 影响 到 灾难 恢复 场景 下 Virtual SAN 延 伸 集 群 的 可 用 性 和 性 能 。 


如 图 5-8 所 示 ， 要 配置 所 需 的 关联 规则 ， 你 首先 要 将 每 个 生产 数据 中 心中 的 一 组 主机 定义 为 站 点 (site) 。 接 下 来 再 按照 关 
联 规则 将 虚拟 机 组 嵌 套 到 主机 组 中 。 也 可 以 通过 vRealize Orchestrator 或 vSphere PowerCLI 来 自动 化 关联 规则 定义 过 程 ， 如 图 
5-9 所 示 。 如 果 必 须 手 工 定 义 ， 要 使 用 一 个 标准 的 命名 规范 ， 以 简化 组 的 创建 过 程 。 运 维 团 队 要 定期 检查 这 些 组 ， 以 确保 虚拟 机 
属于 正确 的 组 ， 与 正确 的 站 点 相关 联 。 
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Profiles 置 gcp-stx-esx02.gcp.local 


图 5-9 ”为 Virtual SAN 延 伸 集 群 配 置 DRS 关 联 规则 集 


另 一 个 运 维 方面 的 问题 是 在 你 创建 相应 的 组 之 前 ， 主 机 和 虚拟 机 必须 已 经 配置 好 了 。 并 确保 配置 的 规则 是 应 该 (should) 
运行 在 哪 一 组 中 的 主机 之 上 。 


配置 关联 组 的 主要 目的 是 确保 一 组 虚拟 机 保持 在 首选 站 点 。 在 正常 工作 的 情况 下 ， 迁 移 它 们 的 唯一 原因 只 有 灾难 避免 或 灾难 


另 一 个 好 处 是 防止 虚拟 机 受 DRS 负 载 均 衡 机 制 的 影响 而 迁移 到 非 优选 数据 中 心 。 当 然 ， 没 有 什么 方法 能 够 阻止 管理 员 手 工 迁 
移 一 些 虚 拟 机 到 非 优选 数据 中 心 。 但 虚拟 机 之 后 会 被 vMotion 迁 移 回来 ， 以 遵从 关联 规则 的 约束 。 确 保 这 些 过 程 被 很 好 地 记录 并 
包含 在 运 维 与 变更 管理 流程 之 中 是 非常 必要 的 ， 这 样 才能 避免 vSphere 管 理 员 执行 错误 操作 。 运 维 策略 应 该 确保 新 创建 的 虚拟 机 
被 加 入 到 适当 的 数据 中 心虚 拟 机 组 ， 否 则 新 的 资源 将 不 会 受到 这 种 机 制 的 保护 。 


缺 省 情况 下 ，DRS 每 5 分 钟 按照 规则 偏差 和 负载 均衡 的 要 求 执行 一 次 纠正 动作 (在 这 种 场景 下 ， 负 载 均 衡 只 会 发 生 在 用 户 定 
义 的 主机 组 之 中 ) 。 当 集群 配置 发 生 改 变 时 也 会 触 帮 DRS， 如 一 台 主 机 重新 连 入 集群 或 者 有 新 的 主机 加 入 。 在 这 种 情况 下 ，DRs 
通常 会 在 30 秒 内 立刻 执行 一 次 纠正 违规 的 行为 。 同 时 ， 纠 正 关 联 规则 违反 事件 要 比 负载 均衡 操作 有 更 高 的 优先 级 别 ， 以 确保 纠 
正 动作 在 负载 均衡 操作 之 前 发 生 。 


要 将 虚拟 机 从 一 个 数据 中 心 迁移 到 另 一 个 ， 你 必须 修改 虚拟 机 的 关联 组 成 员 关 系 ， 否 则 与 该 组 相关 联 的 应 该 规则 (should 
rule) 会 把 它 重新 迁移 回来 。 在 灾难 避免 场景 ， 通 过 把 将 要 遭遇 故障 的 数据 中 心中 的 所 有 主机 置 于 维护 模式 ， 可 以 确保 所 有 的 负 
载 被 迁移 到 另 一 个 位 置 。 


下 一 个 与 DRS 相 关 的 决策 是 ， 虚 拟 机 的 放置 机 制 采 用 全 自动 (fully automated) 还 是 半自动 (partially automated) 。 


VMware 给 这 种 配置 提供 了 一 个 明确 的 建议 : 半自动 。 因 为 这 关系 到 一 个 站 点 发 生 故 障 时 和 发 生 故 障 后 虚拟 机 的 行为 。 如 果 
一 个 站 点 停止 工作 相当 长 一 段 时 间 ， 主 机 再 次 上 线 后 就 需要 一 次 组 件数 据 重 同步 。 如 果 DRS 配 置 为 全 自动 ， 虚 拟 机 就 会 为 了 遵从 
关联 配置 而 马上 开始 在 两 个 站 点 之 间 进 行 重 平衡 操作 。 但 是 ， 因 为 没有 同步 好 的 本 地 数据 副本 ， 来 自 这 些 虚 拟 机 的 MO 必须 遍历 
站 点 互 连 ， 才 能 到 达 所 需 组件 的 活动 副本 。 这 会 导致 延 时 、 带 宽 以 及 性 能 问题 ， 因 此 不 是 一 个 最 优 的 配置 选项 。 此 外 ，DRS 会 受 


到 总 容量 和 vMeotion 的 并 发 操作 数量 限制 ， 需 要 多 轮 DRs 过 程 才能 改正 所 有 的 违规 。 因 此 ， 我 们 建议 在 Virtual SAN 延 伸 集群 中 
使 用 半自动 模式 。 


在 半自动 模式 下 ，vSphere 存 储 管理 员 可 以 等 待 重 同步 完成 以 后 再 临时 启用 全 自动 模式 ， 以 使 环境 中 的 负载 按照 关联 规则 重 
新 进行 平衡 。 


从 运 维 的 角度 看 ， 在 半自动 模式 下 ， 为 了 在 每 个 数据 中 心 内 部 平衡 主机 关联 组 ，vSphere 管 理 员 会 收 到 关于 负载 放置 建议 的 
通知 ， 但 是 更 改 不 会 自动 被 执行 ，DRS 的 建议 是 ， 由 vSphere 管 理 员 在 日 常 的 变更 管理 任务 中 手工 执行 。 


与 关联 组 配置 相关 的 最 后 一 个 设计 因素 是 多 虚拟 机 或 分 层 应 用 的 协同 定位 。 相 互 依赖 的 虚拟 机 之 间 会 产生 大 量 的 网 络 流量 ， 
应 该 配置 到 同一 个 虚拟 机 组 。 这 样 可 以 确保 它们 保持 在 相同 的 数据 中 心 ， 避 免 产 生 不 必要 的 跨 站 点 流量 。 但 同时 ， 对 于 一 些 双 活 
应 用 而 言 ， 跨 两 个 站 点 分 布 才 是 最 好 的 选择 ， 因 为 那样 可 以 提供 更 好 的 可 用 性 。 


5.11 高 可 用 性 配置 


vSphere 高 可 用 性 (HA) 不 具备 站 点 感知 能 力 ， 因 此 ，Virtual SAN 延 伸 集 群 需要 一 些 额 外 的 配置 以 模拟 站 点 感知 。 


如 图 5-10 所 示 ， 要 确保 vSphere HA 能 够 在 一 个 生产 数据 中 心 出 现 故 障 时 重新 启动 所 有 虚拟 机 ， 准 入 控制 策略 必须 配置 为 应 
对 失败 事件 保留 50% 的 CPU 和 内 存 资源 。 一 些 客户 对 这 个 需求 有 疑虑 ， 因 为 他 们 不 希望 那些 买 来 的 资源 只 能 使 用 一 半 。 但 如 果 
业务 系统 计划 使 用 预 配 置 的 延伸 集群 来 保障 应 用 程序 的 连续 性 ， 这 就 不 可 避免 。 一 旦 谈 到 这 一 点 ， 你 可 能 就 要 重新 计算 客户 的 容 
量 需求 ， 所 以 应 该 尽早 在 设计 阶段 开始 这 个 讨论 。 


有 一 点 很 重要 ，Virtual SAN 对 vSphere HA 和 准 入 控制 策略 并 没有 感知 ， 也 没有 任何 机 制 可 以 为 那些 迁移 到 一 个 站 点 的 负 
载 保留 百分之百 的 资源 。 因 此 ， 在 3 个 故障 域 有 一 个 不 可 用 的 情况 下 ， 虚 拟 机 将 会 保持 在 不 合 规 的 状态 直到 环境 完全 恢复 。 如 果 
随时 保持 完全 合 规 状态 是 延伸 集群 的 一 项 设计 需求 ， 你 需要 手工 计算 环境 容量 ， 并 准备 好 vSphere 管 理 员 应 对 故障 所 需 的 操作 步 


对 延伸 集群 的 下 一 个 设计 建议 是 指定 两 个 隔离 地 址 ， 每 个 数据 中 心 一 个 ， 以 响应 隔离 事件 。 当 两 个 数据 中 心 之 间 的 网 络 连接 
中 断 时 就 有 用 了 。 每 个 站 点 仍然 能 够 访问 它 自己 的 vsphere HA 隔离 地 址 ， 这 样 就 不 会 意外 地 触发 导致 特定 站 点 上 的 虚拟 机 关机 
或 断 电 的 vsphere HA 隔离 响应 ， 具 体 行为 取决 于 集群 的 HA 隔离 响应 配置 。 
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图 5-10 





准 入 控制 策略 配置 


在 Virtual SAN 环 境 中 ， 心 跳 机 制 也 使 用 Virtual SAN 网 络 来 通信 ， 而 不 是 使 用 管理 网 络 。 但 vSphere HA 会 继续 使 用 管理 网 
络 的 缺 省 网 关 作 为 隔离 响应 地 址 。 在 延伸 集群 中 ， 应 该 修改 为 Virtual SAN 网 络 地址 。 配 置 项 是 


das.usedefaultisolationaddress， 应 该 将 它 配置 为 false。 


此 外 ， 建 议 配 置 两 个 额外 的 隔离 响应 地 址 ， 每 个 物理 站 点 各 一 个 ， 都 配置 在 Virtual SAN 网 络 。 在 首选 站 点 上 使 用 


das.isolationaddress0 配 置 参数 ， 为 它 指 定 Virtual SAN 网 络 上 一 个 合 


一 个 非 首 选 站 点 的 IP 地 址 ， 如 图 5-11 所 示 。 
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适 的 I|P 地 址 。 然 后 再 利用 参数 das.isolationaddress1 配 置 
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延伸 集群 主机 隔离 高 级 配置 


最 后 ， 要 在 整体 设计 中 包含 vsphere HA 的 重启 动 优先 级 。 重 启动 优先 级 可 以 确保 在 切换 到 另 一 数据 中 心 之 后 优先 启动 最 重 


要 的 虚拟 机 。 下 面 罗列 了 可 以 应 用 于 负载 的 优先 级 ， 这 一 功能 可 以 指导 vSphere HA 以 最 优 的 方式 启动 虚拟 机 ， 并 兼顾 应 用 程序 
的 依赖 关系 : 


代理 虚拟 机 (有 “标签 ”的 虚拟 机 ， 主 机 故障 时 优先 启动 ) 。 
“ 重启 动 优 先 级 为 高 的 虚拟 机 。 


* 重启 动 优先 级 为 中 的 虚拟 机 。 





* 重启 动 优先 级 为 低 的 虚拟 机 。 


vSphere HA 的 参数 在 整个 延伸 集群 范围 内 应 该 保持 一 致 ， 应 该 是 设计 的 一 部 分 。 以 限制 不 确定 性 并 简化 运 维 。 表 5-5 中 包 
含 了 Virtual SAN 集 群 上 vSphere HA 的 标准 设置 和 可 选项 ， 供 大 家 在 架构 设计 时 参考 。 


表 5-5 Virtual SAN 延 伸 集 群 vSphere HA 配置 样 例 


属 性 配 置 值 
集 群 特性 局 用 
FE 机 监视 状态 启用 
机 硬件 监视 禁用 ( 缺 省 ) 
准 入 控制 策略 CPU: 50%; 内 存 : 50% 
vSphere 高 可 用 (HA) 虚拟 机 选项 > 虚拟 机 重启 动 优先 级 客户 自 定义 
虚拟 机 选项 > 主机 隔离 啊 应 关机 或 重启 动 虚拟 机 
虚拟 机 监视 客户 目 定 义 
数据 存储 心跳 不 适用 
das.usedefaultisolationaddress false 
高 级 配置 das.isolationaddress0 首选 站 点 的 Virtual SAN IP 地 址 
das.isolationaddress1 上 首选 站 点 的 Virtual SAN IP 地 址 





5.12 ”延伸 集群 广域网 互联 设计 


我 们 在 前 面 强 调 过 ， 两 个 生产 数据 中 心 之 间 的 互联 网 络 是 Virtual SAN 延 伸 集 群 设 计 中 的 关键 因素 。 跨 站 点 连接 和 与 之 相关 
的 带宽 、 延 时 和 可 用 性 是 体系 架构 中 的 重要 组 件 。 


要 在 Virtual SAN 延 伸 集群 设计 中 选择 最 合适 的 跨 数 据 中 心 广域网 连接 ， 需 要 根据 设计 需求 和 约束 来 评估 不 同 广域网 技术 的 
特性 。 最 终 的 设计 决策 要 根据 技术 和 客户 的 业务 需求 来 确定 。 带 宽 和 延 时 是 最 重要 因素 ， 可 用 性 可 以 作为 额外 参考 项 。 


数据 中 心 广域网 互联 技术 可 以 粗略 地 分 为 下 面 3 种 类 型 : 
* 私有 广域网 。 用 户 拥 有 并 负责 管理 ， 价 格 较 高 ， 实 现 和 维护 难度 大 ， 很 难 满足 业务 需求 的 动态 变化 。 优 点 性 和 传 
输 质 量 。 
* 专线 广域网 。 由 服务 商 来 维护 ， 用 户 可 能 需要 购买 额外 的 硬件 以 实现 连接 。 消 费 者 按照 预 分 配 带宽 而 不 是 利用 率 来 付费 。 


. 共享 广域网 。 服 务 商 负责 为 共享 环境 提供 运 维 服务 ， 用 户 可 能 需要 购买 额外 的 硬件 以 实现 连接 。 共 享 链 路 最 便宜 ， 但 也 意 


味 着 用 户 要 承受 更 高 的 安全 风险 ， 也 存在 资源 争 用 的 可 能 。 


1. 为 延伸 集群 评估 广域网 平台 


本 部 分 对 多 种 广域网 连接 技术 进行 评估 ， 以 便 我 们 将 相应 的 特性 与 Virtual SAN 延 伸 集 群 的 需求 相映 射 。VMware 对 广域网 
链 路 的 选择 没有 特定 的 要 求 和 建议 ， 完 全 取决 于 客户 的 特定 需求 、 主 要 的 设计 因素 ， 以 及 数据 中 心 的 可 用 性 。 


2. 裸 光纤 


如 图 5-12 所 示 ， 裸 光纤 (Dark fiber) 是 地 下 光纤 链 路 的 标准 ,但 是 现在 已 经 不 用 了 。 使 用 的 光纤 可 以 是 单 模 或 多 模 ， 但 通 
常 使 用 的 是 9 微米 单 模 光 纤 。 校 园 网 络 中 裸 光纤 通常 是 私有 的 ， 城 域 网 中 的 裸 光纤 通常 是 租用 的 。 
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第 二 层 或 第 三 层 


图 5-12 ” 裸 光纤 互联 


裸 光纤 是 物理 介质 ， 直 接连 接 两 个 交换 机 端口 ， 有 很 多 解决 方案 可 以 用 裸 光纤 作 底层 平台 ， 如 CWDM 和 DWDM ， 我 们 后 面 


会 继续 讨论 。 


裸 光纤 的 最 大 传输 距离 取决 于 很 多 因素 ， 包 括 信号 衰减 和 光 交 换 。 一 般 认 为 最 大 距离 是 10 公 里 。 某 些 情况 下 可 以 达到 更 远 
的 距离 ， 如 10GB 以 太 网 可 以 达到 80 公 里 ，8GB 光 纤 通 道 可 以 达到 40 公 里 。 但 是 这 些 链 路 有 严格 的 标准 ， 需 要 采用 特定 的 光纤 。 
目前 裸 光纤 最 高 可 支持 100GB 带 宽 。 


因为 每 对 光纤 都 专用 于 一 对 交换 机 端口 ， 因 此 不 能 混合 传递 不 同 的 二 层 流量 。 以 太 网 和 光纤 通道 流量 也 不 能 混在 一 起 。 要 同 
时 传递 这 两 种 流量 ， 至 少 需要 两 对 光纤 。 


总 结 一 下 ， 对 于 Virtual SAN 延 伸 集 群 架 构 ， 裸 光纤 具备 下 述 特征 : 
"9 微米 单 模 光纤 。 

. 适用 于 校园 网 或 更 远 距离 。 

:成 对 使 用 。 


. 支持 多 种 带宽 。 


“ 传输 距离 通常 在 10 公 里 以 内 。 
采用 特定 组 件 和 介质 ，10GB 以 太 网 传输 距离 可 以 达到 80 公 里 


采用 特定 组 件 和 介质 ，8GB 光 纤 通道 传输 距离 可 以 达到 40 公 里 


启 


3. 波 分 复 用 


波 分 复 用 (WDM) 是 一 种 通过 一 对 光纤 同时 传输 多 个 数据 流 的 技术 。 有 了 WDM 技 术 ， 我 们 就 不 需要 为 每 一 种 流量 部 署 单 
独 的 裸 光纤 了 。WDM 有 两 种 类 型 : 密集 波 分 复 用 (DWDM) 和 稀 足 波 分 复 用 (CWDM) 。 


DWDM， 正 如 它 的 名 字 ， 支 持 更 多 的 波长 ， 各 波长 之 间 的 间隙 更 上 紧密， 如 图 5-13 所 示 。 因 为 波长 间隔 太 小 ，DWDM 需 要 


高 精度 设备 ， 通 常 售 价 较 贵 。 
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vSphere 和 启用 了 Virtual SAN 的 延伸 集群 














2.5Gbps-100Gbps 
图 5-13 密集 波 分 复 用 (DWDMD) 


这 种 设备 对 数据 源 (如 交换 机 ) 发 出 的 光 进 行 过 滤 ， 然 后 将 来 自 多 个 源 的 光 进 行 整合 以 复 用 光纤 通道 。 在 光纤 通道 的 远 端 ， 


一 /日 


另 一 个 复 用 器 将 来 自 源 的 信号 分 离 再 转发 到 相应 的 目标 设备 。 因 为 信号 同时 被 DWDM 系统 放大 ， 可 以 传输 的 距离 比 裸 光 纤 远 得 
多 。 如 果 使 用 正确 的 硬件 设备 和 介质 ，DWDM 可 以 扩展 到 几 干 公里 。DWDM 设 备 能 够 支持 的 波长 数量 是 可 变 的 ，32、64 甚 至 
128 都 是 可 能 的 。 


DWDM 有 下 述 的 主要 设计 要 素 需 要 评估 : 

. 最 典型 的 使 用 场景 是 短 距离 通信 ， 如 100 或 200 公 里 ， 也 支持 更 长 的 距离 。 
` 必须 通过 裸 光 纤 传 输 。 

:从 光束 中 分 离 不 同 的 波长 。 

. 每 个 信号 可 以 以 不 同 的 速率 进行 传输 。 

. 每 个 复 用 器 频道 有 专用 的 带宽 ， 大 约 0.4 纳 米 的 间隙 。 

DWDM 转 发 器 支持 多 种 协议 和 速度 (LAN、SAN 和 其 他 信号 ) 。 


CWDM 是 DWDM 的 低 成 本 蔡 代 方案 ， 它 的 功能 与 DWDM 基本 上 相同 ， 只 是 波长 (在 CWDM 中 称 为 通道 ) 之 间 的 间隔 更 
长 。 因 此 在 光纤 通道 上 能 够 容纳 的 频道 更 少 (每 对 光纤 最 多 16 个 通道 ) 。CWDM 需 要 的 组 件 比 DWDM 更 少 ， 而 且 这 些 组 件 的 


开销 更 少 。 但 CWDM 不 会 像 DWDM 一 样 放 大 和 净化 信号 ， 因 此 CWDM 的 距离 限制 要 小 得 多 。 在 大 多 数 实现 中 ， 最 大 的 距离 都 
少 于 100 公 里 。 相 对 于 裸 光纤 ， 能 够 同时 传输 多 个 信号 也 是 CWDM 的 主要 优势 。 


4.SONET 互 联 


同步 光纤 网 (SONET) ， 在 北美 以 外 更 常用 的 名 字 是 同步 数字 体系 (SDH) ， 比 之 前 提 到 的 光纤 传输 技术 支持 更 长 的 网 络 
距离 ， 如 图 5-14 所 示 。SONET/SDH 主 要 用 于 城市 之 间或 国家 /地 区 之 间 的 网 络 通信 。 
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图 5-14 ”同步 光纤 网 


SONET/SDH 对 平台 上 的 很 多 应 用 可 以 提供 如 下 好 处 : 


. SONET/SDH 在 很 多 地 区 都 可 用 。 


“ 比 CWDM 或 DWDM 可 以 传输 更 远 的 距离 ， 且 价格 更 便宜 。 


* 提供 全 面 的 网 络 管理 和 故障 排除 功能 。 在 SONET/SDH 网 络 中 ， 光 信号 在 所 有 的 网 络 访问 和 再 生 点 上 被 转换 成 电信 号 。 尽 
管 这 种 转换 带 来 了 一 些 延 时 ， 但 更 容易 监视 。 


. SONETV/SDH 提 供 各 种 保护 系统 ， 包 括 比 1+1 更 经 济 的 n+1。 而 DWDM 和 CWDM 不 提供 n+1 保 护 功能 。 


n+1 是 指 利用 一 条 空 闪 电路 为 多 条 活动 电路 提供 元 余 ， 当 第 1 条 活动 电路 故障 时 ， 备 用 的 电路 被 启用 。 对 于 DWDM 和 
CWDM ，1+1 保 护 是 指 保留 一 对 光纤 用 来 在 主线 路 故障 时 切换 。 


总 的 来 说 ， 要 在 Virtual SAN 延 伸 集 群 中 使 用 SONET/SDH 作 为 站 点 间 连 接 ， 需 要 重点 考虑 下 述 的 设计 要 素 : 


. SONET/SDH 能 够 传输 的 距离 比 WDM 机 制 更 长 。 


" 典型 的 应 用 场景 是 中 短 距 离 。 


* 可 以 在 没有 裸 光 纤 可 用 的 情况 下 使 用 。 


“ 更 容易 管理 和 故障 排除 。 


需要 在 基础 架构 中 安装 设备 。 


: 有 多 种 保护 系统 可 以 使 用 。 


“ 可 以 与 DWDM 一 起 使 用 以 增加 容量 或 提供 完 余 。 


5. 多 协议 标记 交换 


如 图 5-15 所 示 ， 多 协议 标记 交换 (MPLS) 的 功能 与 |P 相 似 ， 但 基础 架构 交换 基于 预定 义 路 径 而 不 是 逐 跳 计算 。MPLS 可 以 
运行 于 各 种 二 层 架构 之 上 。 
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& Z,Y,X,V,U 
图 5-15 ”多 协议 标记 交换 


如 果 采 用 MPLS 或 IP 来 连接 多 个 数据 中 心 ， 设 计 与 光纤 模式 有 很 大 的 不 同 。 数 据 中 心 互联 链 路 变 成 了 2.5 或 3 层 ，2 层 连接 在 
数据 中 心 之 外 不 可 用 。 但 是 Virtual SAN 延 伸 集群 要 求 必须 是 2 层 连 接 ， 因 此 使 用 基于 IP 的 广域网 连接 时 也 必须 建立 2 层 连 接 ， 以 
确保 Virtual SAN 可 以 按照 与 光纤 链 路 一 样 建立 二 层 邻 居 关 系 。 两 个 站 点 之 间 需 要 构建 隧道 ， 隧 道内 封装 以 太 网 数据 。 


总 结 一 下 ， 要 使 用 MPLS 作 为 Virtual SAN 延 伸 集 群 的 站 点 互联 解决 方案 ， 设 计时 需要 考虑 以 下 因素 : 
` 2.5 层 协议 。 
. 适用 于 长 距离 或 短 距离 。 
. 可 用 于 无 裸 光纤 环境 。 
. 链 路 可 以 共享 使 用 。 
. 可 以 运行 于 多 种 二 层 网 络 之 上 。 
" 用 户 预 定义 路 径 ， 减 少 动态 计算 路 径 所 带 来 的 延 时 。 


: MPLS 的 性 能 ( 延 时 、 持 动 、 故 障 切换 等 ) 取决 于 服务 商 的 服务 级 别 。 


5.13 ”部署 延伸 VLAN 


Virtual SAN 延 伸 集群 的 一 个 主要 需求 是 将 一 台 虚 拟 机 迁移 到 不 同 物理 数据 中 心 的 能 力 ， 迁 移 过 程 中 要 保证 虚拟 机 和 应 用 能 
够 正常 通信 ， 支 持 的 服务 要 能 够 持续 为 用 户 服务 ， 不 能 产生 中 断 。 


要 满足 上 面 的 要 求 ， 通 常 需要 使 用 延伸 VLAN。 延 促 VLAN (stretched VLAN) 是 一 种 跨越 多 个 物理 数据 中 心 的 VLAN。 在 
一 个 典型 的 多 站 点 数据 中 心 环境 中 ， 各 个 地 点 是 通过 三 层 广域网 相互 连接 的 。 这 是 最 简单 的 实现 ， 消 除了 环境 中 的 复杂 性 。 但 
是 ， 在 一 个 纯粹 的 三 层 环境 中 ， 负 载 被 迁移 后 必须 更 改 |P 地 址 ， 以 匹配 另 一 个 数据 中 心 的 编 址 方案 。 此 外 ， 整 个 VLAN 子 网 的 路 
由 配置 必须 改变 ， 这 意味 着 该 VLAN 上 的 所 有 资源 必须 同时 迁移 到 其 他 的 站 点 。 这 种 方法 严重 阻碍 了 跨 数据 中 心 迁 移 虚 拟 机 的 能 
力 ， 并 不 能 提供 Virtual SAN 延 伸 集 群 所 需 的 灵活 性 。 


因此 ， 要 创建 一 个 可 以 长 距离 迁移 负载 的 环境 ， 必 须 使 用 延伸 VLAN ， 如 图 5-16 所 示 。 它 们 可 以 延伸 到 一 个 数据 中 心 站 点 之 
外 ， 位 于 不 同 物理 数据 中 心 的 负载 可 以 像 本 地 一 样 相互 通信 。 








延伸 集群 架构 延伸 集群 架构 
工作 负载 数据 中 心 A 工作 负载 数据 中 心 B 


ED EEC ES 
EDE ED PSSM — + 1 (MIAN 20300) CIS 





图 5-16 ”延伸 VLAN 
为 了 将 VLAN 延 伸 到 多 个 物理 数据 中 心 ， 需 要 利用 一 些 技术 ， 具 体 实现 依赖 于 底层 的 广域网 技术 。 


与 裸 光纤 、DWDM 和 CWDM 点 对 点 连接 物理 站 点 不 同 ，VLAN 可 以 利用 广域网 链 路 进行 扩展 ， 就 像 在 同一 物理 数据 中 心 一 
样 ， 如 图 5-17 所 示 。 如 果 物 理 连 接 已 经 建立 ， 并 不 需要 额外 配置 。 


延伸 集群 架构 -HF 延伸 集群 架构 
工作 负载 数据 中 心 A 工作 负载 数据 中 心 B 


L2 orL3 


Dark Fiber/CWDM/ 
Switch DWDM 


L2 orL3 
Native Layer2 Switch 


1 
应用 澡 | 应 月 二 
间作 不 续 作 矢 统 








图 5-17 ”基于 裸 光 纤 的 延伸 VLAN 


但 是 ， 跨 站 点 扩展 VLAN 可 能 需要 改变 局 域 网 的 配置 。 表 5-6 列 出 了 通过 光纤 互联 链 路 扩展 VLAN 时 需要 考虑 的 内 容 。 


表 5-6 ”通过 光纤 数据 中 心 互联 链 路 扩展 VLAN 时 的 设计 因素 


汇聚 层 交 换 机 通过 二 层 链 路 连接 到 数据 中 梨 光 纤 : 每 个 站 点 两 对 裸 光 纤 
心 之 间 的 交换 网 络 ， 跨 数据 中 心 交换 机 聚合 (如 果 需 要 更 多 的 带宽 或 者 有 更 多 的 
成 虚拟 交换 机 受 限 于 DWDM、CWDM | 传输 协议 ， 就 需要 更 多 光纤 ) 

生成 树 协 议 (STP) 不 能 跨越 站 点 。 在 广 | 或 裸 光 纤 的 距离 DWDM: 每 个 站 点 一 根 或 一 对 光纤 
域 网 端口 上 阻止 生成 树 协 议 。 使 用 多 生成 树 CWDM : 每 个 站 点 一 对 光纤 ， 具 
(MST) 为 每 个 站 点 创建 一 个 单独 的 区 域 体 取 决 于 带宽 需求 





如 果 设 计 中 使 用 MPLS 作 为 站 点 间 连 接 ， 不 论 是 私有 线路 还 是 租用 线路 ， 都 可 以 用 来 建立 以 太 网 隧道 。 在 以 太 网 帧 上 添加 
MPLS 虚 拟 电路 标记 和 MPLS 隧 道 ID 标 记 就 可 以 了 ， 如 图 5-18 所 示 。 
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图 5-18 ” MPLS 承载 延伸 VLAN 


这 种 类 型 的 封装 通常 称 为 MPLS 承 载 以 太 网 (EoMPLS) 或 虚拟 专用 局 域 网 服务 (VPLS) 。EoMPLS 用 于 点 对 点 配置 ， 而 
VPLS 用 于 点 对 多 点 或 网 状 互 联 的 情况 。 


如 果 在 数据 中 心 连接 网 络 方面 客户 的 唯一 选择 是 IP 网 络 ， 也 有 一 些 跨 站 点 扩展 VLAN 的 方法 。 最 简单 的 方案 是 使 用 二 层 隧 道 
协议 版 本 3 (L2TPv3) 来 构建 以 太 网 隧道 ， 如 图 5-19 所 示 。 使 用 这 种 方法 时 ， 以 太 网 帧 上 添加 L2TP 头 然后 封装 进 IP 包 。 以 太 网 
帧 就 可 以 被 传送 到 远程 站 点 ， 中 间 的 连接 网 络 不 需要 看 到 以 太 网 帧 。 
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图 5-19 L2TP v3 承载 的 延伸 VLAN 
另外 ， 也 可 以 采用 一 些 私有 技术 ， 如 Cisco 的 OTV。 我 们 会 在 本 单元 的 后 边 介绍 这 种 架构 。 


虽然 我 们 可 以 在 Virtual SAN 延 伸 集 群 设计 中 采用 跨越 两 个 物理 位 置 延 伸 VLAN 和 地 址 空间 的 技术 ， 但 它 也 会 给 我 们 带 来 一 
些 挑 战 ， 这 种 类 型 的 网 络 扩展 会 对 网 络 设计 产生 较 大 影响 。 


但 是 也 没有 什么 好 的 办 法 可 以 只 借助 于 三 层 技术 在 数据 中 心 之 间 建 立 二 层 连 接 ， 影响 数据 中 心 之 间 的 流量 模型 ， 如 
生成 树 协 议 (STP) 、 单 播 泛 洪 、 广 播 和 ARP 请 求 。 因 此 ， 必 须 采 用 一 些 新 的 技术 来 扩展 生成 树 协 议 ， 以 避免 环 路 和 广播 风暴 ， 
随时 清楚 子 网 中 的 某 个 活动 |P 位 于 什么 地 方 。 


要 得 到 更 多 信息 ， 请 根据 客户 的 实施 计划 查询 相关 网 络 硬件 文档 ， 或 者 向 能 够 对 特定 环境 中 的 所 有 需求 和 限制 进行 评估 的 网 
络 架 构 师 来 寻求 帮助 。 不 管 怎么 样 ， 当 你 准备 把 局 域 网 延伸 到 多 个 物理 站 点 时 ， 解 决 生成 树 隔离 和 避免 端 到 端 环 路 都 是 关键 需 
求 ， 以 消除 远程 数据 中 心 故障 时 可 能 导致 的 重大 事故 ， 或 者 从 一 个 数据 中 心 到 另 一 个 数据 中 心 传 递 不 必要 的 网 络 流量 。 


5.13.1 广域网 互联 高 可 用 


数据 中 心 互联 广域网 链 路 的 高 可 用 要 比 局 域 网 环境 复杂 得 多 。 距 离 、 成 本 、 没 有 设备 以 及 连通 性 都 有 较 大 影响 。 广 域 网 连接 
的 高 可 用 模型 有 很 多 种 ， 取 决 于 你 使 用 的 广域网 类 型 。 通 常 来 说 ， 典型 的 高 可 用 解决 方案 可 以 分 为 元 余 组 件 、 宛 余 链 路 或 两 
者 兼 具 。 


元 余 组 件 (redundant component) 是 在 两 个 数据 中 心 都 采用 多 个 设备 ， 例 如 路 由 器 和 放大 器 ， 这 种 元 余 主 要 用 来 抵御 组 
件 失效 ， 并 可 提供 不 中 断 服 务 的 维护 和 升级 。 


元 余 链 路 (redundant link) 是 指 在 数据 中 心 之 间 建 立 多 个 连接 ， 采 用 多 个 专用 介质 ， 如 多 条 标准 的 裸 光 纤 ， 或 者 联合 使 用 
光纤 和 共享 介质 ， 如 MPLS。 我 们 在 设计 中 也 可 以 同时 使 用 两 种 方法 ， 提 供 完 全 元 余 的 数据 链 路 ， 以 实现 最 高 级 别 的 可 用 性 。 


一 些 网 络 服 务 商 也 提供 备用 连接 的 方案 。 这 种 方案 可 以 降低 总 体 拥有 成 本 ， 因 为 用 户 是 按照 数据 传输 量 来 付费 的 。 这 是 一 种 
比较 经 济 的 链 路 元 余 方 案 ， 用 户 不 需要 为 不 使 用 的 带宽 付 钱 。 


在 决定 采用 哪 种 方案 来 保障 广域网 可 用 性 之 前 ， 要 清楚 可 用 的 选项 和 被 保护 对 象 。 例 如 ， 如 果 某 个 ISP 所 提供 的 服务 出 现 大 
面积 故障 时 ， 宛 余 链 路 或 组 件 可 能 也 帮 不 上 忙 。 


5.13.2 ”安全 通信 


客户 可 能 会 对 数据 中 心 之 间 的 Virtual SAN 流 量 有 安全 性 的 要 求 ， 如 数据 实时 加 密 。 目 前 用 来 保护 数据 安全 的 技术 是 网 际 协 
议 安全 (IPSec) 。IPSec 通 过 在 一 个 站 点 边缘 加 密 数 据 流 ， 在 另 一 个 站 点 边缘 解密 数据 流 的 方式 来 保护 数据 ，IPSec 有 两 种 操作 
模式 : 


. 透明 模式 


. 隧道 模式 


透明 模式 (transport mode) 只 加 密 IP 包 的 净 载 部 分 ， 数 据 包 头 不 加 密 ， 其 他 的 网 络 设备 可 以 读 取 。 


隧道 模式 (tunnel mode) 通常 用 于 点 对 点 或 站 点 对 站 点 的 场景 。 整 个 数据 包 都 被 加 密 ， 这 也 意味 着 它 必须 被 封装 在 另 一 
个 头 部 不 加 密 的 IP 包 ， 这 样 就 可 以 在 保证 数据 安全 的 同时 让 网 络 设备 能 够 读 取 未 加 密 头 部 中 的 源 和 目的 地 信息 。 


5.14 ”数据 中 心 互 联 设 计 因素 汇 忆 


我 们 在 Virtual SAN 延 伸 集 群 设计 中 评估 一 个 数据 中 心 互联 解决 方案 时 ， 需 要 考虑 一 些 关 键 因 素 ， 表 5-7 汇 总 了 常见 的 互联 
方案 和 每 一 种 广域网 类 型 的 关键 设计 因素 。 需 要 引起 注意 的 是 ， 这 些 因素 在 不 同 的 地 方 可 能 会 有 很 大 的 区 别 ， 服 务 商 也 可 能 会 提 
供 一 些 额外 的 功能 对 核心 技术 进行 增强 。 


表 5-8 对 前 面 讨论 过 的 广域网 技术 做 了 一 个 汇总 ， 这 些 都 可 以 用 来 在 延伸 集群 解决 方案 中 用 来 连接 多 个 数据 中 心 。 请 注意 表 
中 所 提供 的 数值 都 是 一 般 值 ， 实 际 的 数值 可 能 会 不 同 ， 取 决 于 服务 商 的 设备 和 介质 等 。 


表 5-7 数据 中 心 互联 关键 设计 因素 


设计 因素 描 述 


广域网 解决 方案 通常 在 物理 层 实 现 ， 因 此 往往 有 距离 的 限制 。 尽 管 DWDM 的 距离 可 以 很 远 ， 
但 一 般 也 不 能 跨国 家 /地 区 使 用 。SONET、MPLS 和 1IP 基本 上 没有 距离 限制 ， 可 以 跨越 多 个 服 
务 商 的 网 络 
关键 设计 因素 如 下 : 
裸 光纤 、DWDM 和 CWDM 的 距离 限制 
SONET/SDH、MPLS 和 卫 没有 距离 限制 , 但 是 要 注意 延 时 


客户 是 所 有 者 ， 专 用 的 广域网 解决 方案 可 以 对 带宽 和 延 时 做 出 保证 ， 客 户 可 以 通过 适当 的 QoS 
策略 来 控制 基础 架构 的 使 用 。 但 是 专线 的 方式 通常 比 其 他 的 方法 更 加 复杂 

专用 的 物理 线路 解决 方案 ， 如 裸 光 纤 、DWDM 和 CWDM， 可 以 保证 带宽 和 延 时 ，SONET 也 
na 的 。MPLS 和 卫 工 作 在 共享 环境 ， 数 据 传输 可 能 被 阻 

一 类 的 解决 方案 通常 允许 客户 从 服务 商 那里 租用 一 定数 量 的 带宽 。 但 有 时 候 可 能 无 法 使 用 

< 因为 服务 商 通常 会 超 卖 

关键 设计 因素 如 下 : 

专 有 解决 方案 可 以 保障 带宽 

专线 方案 有 多 种 

裸 光纤 、DWDM、CWDM 和 SONET/SDH 可 以 保证 带宽 

MPLS 和 IP 的 带宽 存在 变数 ， 因 为 它们 是 共享 的 


部 署 一 个 专用 的 解决 方案 需要 购买 必要 的 设备 和 介质 。 一 些 设备 的 采购 成 本 可 能 很 高 ， 如 
DWDM 设备 

专用 解决 方案 中 可 能 已 经 包含 了 必要 的 设备 。 但 客户 可 能 还 需要 购买 设备 以 连 入 供应 商 的 网 络 
关键 设计 因素 如 下 : 

专用 方案 需要 购买 设备 

租用 线路 解决 方案 通常 包含 了 使 用 服务 所 需 的 必要 设备 


对 于 裸 光纤 、DWDM 和 CWDM 来 说 ， 很 难 通过 单独 且 不 同 的 路 径 来 连接 两 个 物理 站 点 。 如 
果 介 质 断 掉 ， 使 用 同一 束 中 的 多 根 光纤 来 实现 宛 余 会 面 对 完 全 无 法 通信 的 风险 。 可 以 考虑 使 用 不 
同 的 解决 方案 (如 MPLS 或 IP) 作为 备份 来 应 对 这 种 通信 故障 。 租 用 多 个 服务 商 的 线路 可 以 在 出 
现 运 营 商 级 别 故障 时 提供 更 多 的 元 余 

关键 设计 因素 如 下 : 

元 余 的 物理 路 径 

多 个 服务 商 

混合 解决 方案 


速度 (带宽 
和 延 时 ) 


成 本 


表 5-8 数据 中 心 互联 解决 方案 汇总 


TT PE 
延 时 每 公里 5 微 秒 每 公里 5 微 秒 i 可 变 (高 ) 
带宽 40Gb/s (每 通道 ) | 10Gb/s (每 通道 ) 可 变 

到 


使 用 适当 的 设备 和 介质 ，DWDM 可 以 超过 200 公 里 ， 但 是 200 公 里 通常 被 认为 是 大 多 数 场景 下 的 上 限 。 





5.15 ”延伸 集群 解决 方案 架构 示例 


如 你 前 面 了 解 到 的 ， 部 署 一 个 跨越 双 数 据 中 心 的 Virtual SAN 延 伸 集 群 有 两 个 主要 的 需求 。 首 先 ， 站 点 之 间 必 须 是 二 层 连 
接 ; 它们 必须 共享 相同 的 VLAN。 其 次 ， 存 储 必须 在 两 个 站 点 之 间 实 时 镜像 。 如 果 没有 能 力 满足 上 述 两 个 需求 ，Virtual SAN 扩 
展 集群 就 无 法 实现 。 


通过 在 两 个 位 置 上 实现 Virtual SAN 扩 展 集群 ， 分 布 式 数 据 存 储 可 以 在 两 个 站 点 同时 提供 读 写 访问 。 这 种 拓扑 使 得 vSphere 
集群 可 以 跨越 两 个 站 点 ， 为 应 用 负载 提供 移动 性 ， 同 时 也 能 提供 灾难 避免 能 力 和 跨 站 点 vSphere HA 灾难 恢复 解决 方案 ， 而 这 一 
切 都 通过 一 个 平台 实现 。 


除了 vSphere 组 件 ， 下 面 的 例子 使 用 Cisco OTV 来 延伸 VLAN 到 两 个 站 点 ， 创 建 了 跨 站 点 的 单一 网 络 。 这 使 得 虚拟 机 和 应 用 
可 以 在 两 个 位 置 上 使 用 相同 的 网 络 配置 ， 跨 数据 中 心 提 供 不 间 断 的 vVMotion 功 能 。 


尽管 这 些 特性 创建 了 一 个 更 复杂 的 分 层 环境 以 实现 操作 ， 支 持 这 个 基础 架构 的 管理 开销 实际 上 减少 了 ， 因 为 两 个 物理 位 置 在 
逻辑 上 是 一 个 数据 中 心 。 


下 述 实 现 利 用 VMware Virtual SAN 6.2 来 满足 客户 虚拟 化 延伸 集群 需求 。 但 数据 中 心中 也 需要 多 个 其 他 组 件 和 技术 用 来 实 
现 灾 难 避 免 、 连 续 可 用 和 跨 站 点 灾难 恢复 功能 。 图 5-20 描 述 了 本 例 的 逻辑 架构 。 
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图 5-20 ”应 用 示例 逻辑 架构 


架构 师 对 所 有 可 能 的 技术 选项 进行 评估 之 后 ， 客 户 认定 10Gb/s DWDM 广域网 链 路 是 最 适合 整体 架构 的 方案 。 这 是 综合 
虑 数据 中 心 之 间 的 距离 、 延 时 、 带 宽 、 灵 活性 和 成 本 之 后 得 出 的 结论 。 其 他 关于 硬件 选择 的 决定 遵照 客户 思科 优先 的 策略 。 


Virtual SAN 延 伸 集群 方案 端 到 端 架构 如 图 5-21 所 示 。 图 中 展示 了 用 来 实现 方案 的 物理 基础 架构 概览 ， 使 得 客户 的 企业 应 用 
跨越 两 个 数据 中 心得 到 保护 。 两 个 数据 中 心 使 用 完全 相同 的 来 自 VMware 和 思科 的 超 融 合计 算 和 网 络 组 件 ， 以 更 有 效 地 使 用 
Virtual SAN 延 伸 集 群 来 实现 负载 移动 性 和 跨 站 点 恢复 虚拟 应 用 ， 而 且 最 终 用 户 觉察 不 到 应 用 的 性 能 受到 任何 影响 。 


如 图 5-21 所 示 ， 在 每 个 物理 数据 中 心 都 使 用 的 是 典型 的 模块 化 组 件 。 包 括 计算 ,设计 中 使 用 了 多 个 Cisco Unified 
Computing System C240 M4 机 架 服 务 器 ， 连 接 到 一 对 6296UP 光 纤 互 联 设 备 。 每 个 C 系 列 机 架 式 服务 器 代表 一 个 ESXi 6.0 主 
机 。 
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图 5-21 物理 架构 概览 


每 个 6296UP 光 纤 互 联网 络 通 过 一 个 端口 通道 连接 到 一 对 Nexus 7710 设 备 ， 代 表 了 简化 的 数据 中 心 核心 和 汇聚 层 。Nexus 
7710 连 接 到 数据 中 心 广域网 边界 ， 提 供 到 达 三 层 核心 网 络 的 连接 。 在 网 络 的 三 层 核心 ， 最 终 用 户 和 客户 连接 访问 特定 的 数据 中 
心服 务 和 应 用 。F5 Global Traffic Manager (GTM) 设备 直接 连接 到 WAN 边 界 ， 为 客户 连接 提供 全 局 负载 均衡 和 流量 管理 。 


在 这 个 设计 中 ， 两 个 数据 中 心 位 置 相距 200 公 里 ， 通 过 高 可 用 的 受 保护 点 对 点 DWDM 电路 相连 。 数 据 中 心 互 联 解决 方案 代 
表 两 边 都 有 同一 套 组 件 。 实 现 延 伸 集群 所 需 的 各 种 技术 包括 但 不 限于 以 下 内 容 : 


LAN 扩展 。 决 定 站 点 间 点 对 点 电路 的 可 用 性 和 硬件 ， 用 户 考 虑 过 两 个 选择 ， 第 1 个 选择 是 利用 Nexus 7710 设 备 的 Cisco 虚 拟 
端口 通道 (vPC) 功能 ， 在 部 署 于 每 个 数据 中 心 的 Nexus 7710 设 备 对 之 间 建 立 端 到 端 端 口 通道 ; 
LAN 扩 展 技术 ) 来 ， 跨 DWDM 链 路 部 署 。 


; 第 2 个 选择 是 引入 OTV (Cisco 的 


路由。 站 点 间 的 数据 中 心 互联 网 络 用 来 发 送 LAN 扩 展 流量 和 没有 扩展 的 子 网 路 由 信息 。 如 前 所 述 ， 满 足 这 一 需求 的 设计 实 
现 取决 于 使 用 哪 种 LAN 扩 展 技术 。 


* 存储 和 计算 弹性 。 要 在 站 点 间 迁 移 负载 ， 就 得 考虑 到 负载 对 存储 和 计算 方案 产生 的 影响 。 如 果 方案 则 在 提供 灾难 避免 或 自 
动 化 灾难 恢复 功能 ， 两 个 数据 中 心 都 必须 有 足够 的 计算 、 网 络 和 存储 资源 。 


5.15.1 基于 DWDM 和 裸 光纤 的 Cisco vPC 


如 图 5-22 所 示 ，Cisco vPC 在 两 台 设 备 之 间 提 供 分 布 式 的 端口 通道 ， 以 及 元 余 和 环 路 避免 功能 。 尽 管 Cisco 的 vPC 被 设计 用 
于 数据 中 心 内 部 ， 它 所 具有 的 将 多 个 设备 之 间 的 多 条 链 路 捆绑 成 逻辑 端口 通道 的 能 力 可 以 用 于 在 不 同 的 物理 站 点 之 间 通 过 


DWDM 和 裸 光纤 来 延伸 VLAN。 


捆绑 连接 两 个 数据 中 心 的 点 对 点 物理 链 路 的 主要 好 处 是 提供 扩展 的 二 层 域 ， 而 且 不 会 出 现 二 层 环 路 拓扑 结构 。 为 了 实现 这 一 
效果 ， 建 立 在 数据 中 心 之 间 的 端口 通道 上 过 滤 生 成 树 桥接 协议 数据 单元 (BPDU) ， 隔 离 STP 域 ， 这 是 任何 一 种 LAN 扩 展 技术 都 
要 面 对 的 主要 挑战 。 从 本 质 上 来 说 ， 就 是 使 用 LACP 代 蔡 STP 作 为 控制 平面 协议 。 


这 种 架构 的 挑战 之 一 是 缺少 通过 相同 Cisco vPC 捆 绑 链 路 实现 二 层 和 三 层 通 信 的 能 力 。 原 因 是 不 支持 通过 Cisco VPC 连接 实 
现 动态 IGP 配 对 。 一 个 解决 办 法 是 利用 额外 的 三 层 链 路 ， 特 别 适 合用 来 传递 路 由 信息 ， 如 图 5-22 所 示 。 
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图 5-22 Cisco vPC 域 


5.15.2 ”基于 DWDM 和 裸 光纤 的 OTV 


层 晋 传输 虚拟 化 〈OTV) 是 Cisco 开 发 的 、 基 于 任何 广域网 传输 架构 提供 二 层 扩展 能 力 的 IP 传 输 机 制 。OTV 对 网 络 基础 架构 
的 唯一 要 求 是 数据 中 心 之 间 有 IP 连 接 。 这 种 技术 利用 了 层 区 功能， 可 以 在 独立 的 二 层 域 之 间 扩 展 二 层 网 络 ， 保 证 这 些 域 相互 独立 
并 保留 IP 网 络 的 故障 隔离 、 弹 性 和 负载 均衡 特性 。 


Cisco OTV 使 用 MAC 路 由 ， 是 一 个 在 多 个 网 络 设备 之 间 交 换 MAC 地 址 信息 的 控制 平面 协议 ， 以 提供 LAN 扩 展 能 力 。OTV 也 
对 必须 发 送 到 远程 站 点 的 二 层 流量 使 用 动态 封装 。 每 个 以 太 网 帧 都 被 单独 封装 在 IP 包 中 ， 这 样 就 能 通过 传输 网 络 进 行 传递 了 。 
OTV 也 提供 内 置 的 带 有 自动 检测 功能 的 多 宿主 能 力 ， 这 对 提高 整个 架构 的 高 可 用 性 非常 关键 。 图 5-23 展 示 了 基于 DWDM 点 对 点 
连接 部 署 的 Cisco OTV。 
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图 5-23 ”基于 DWDM 和 裸 光 纤 的 OTV 部 署 
总 结 一 下 基于 DWDM 的 Cisco OTV 解 决 方案 配置 : 
: 图 中 的 跨 站 点 链 路 代表 OTV 层 王 的 逻辑 链 路 ， 不 是 物理 连接 。 


. 在 这 个 解决 方案 示例 中 ，Nexus 7710 对 任意 给 定 的 VLAN， 在 SVI 路 由 和 Cisco OTV 封 装 之 间 强 制 隔离 。 在 客户 的 环境 中 这 
一 点 很 重要 ， 因 为 Nexus 7710 交 换 机 同时 提供 这 两 种 功能 。 这 种 隔离 可 以 通过 使 用 Nexus 7710 平 台所 提供 的 虚拟 设备 功能 来 实 


现 。 


“ 对 于 这 个 设计 ， 需 要 部 署 两 个 虚拟 设备 : 一 个 Cisco OTV 虚 拟 设 备 专用 于 实现 OTV 功 能 ; 一 个 路 由 虚拟 设备 用 来 提供 SVI 
路 由 支持 。 


通过 DWDM 或 裸 光纤 使 用 DTV 相 比 之 前 描述 的 基于 Cisco vPC 的 解决 方案 有 以 下 好 处 。 


Cisco OTV 可 以 使 用 相同 的 DWDM 或 裸 光纤 连接 建立 二 层 和 三 层 连 接 。 因 为 Cisco OTV 封 装 所 有 来 自 虚拟 设备 的 流量 ， 将 


. Cisco OTV 本 地 故障 域 隔离 技术 意味 着 不 需要 管理 员 配 置 BPDU 过 滤 ， 以 防止 创建 跨 站 点 的 STP 域 。 此 外 ，ARP 优 化 用 来 限 
制 跨 数 据 中 心 连接 交换 的 ARP 广 播 帧 数量 。 


* Cisco OTV 的 二 层 数据 平面 隔离 意味 着 在 部 署 时 简化 了 风暴 控制 配置 ， 自 带 未 知 单 播 帧 抑制 功能 


- Cisco OTV 的 多 宿主 LAN 扩 展 能 力 可 以 非常 简单 地 扩展 服务 到 另外 的 站 点 。 


5.15.3 Cisco LISP 配 置 简介 


本 例 中 用 到 的 最 后 一 个 Cisco 关 键 技术 是 位 置 /1D 隔离 协议 (LISP) 。Cisco LISP 机 制 在 跨 站 点 vMotion 或 vSphere HA 事件 
发 生 后 进行 流量 路 由 优化 ， 以 便 从 位 于 数据 中 心 外 部 的 最 终 用 户 那 里 来 的 应 用 流量 不 需要 流 经 原 数据 中 心 而 是 直接 到 达 应 用 的 虚 
拟 机 。 关 于 LISP 的 详细 信息 已 经 超出 了 本 书 的 讨论 范围 ， 但 是 对 于 这 一 类 的 设计 场景 ，Cisco LISP 可 以 给 应 用 带 来 很 多 好 处 ， 包 
括 低 延 时 和 更 快 的 应 用 响应 时 间 。 


5.16 ”延伸 集群 故障 场景 


作为 一 名 架构 师 ， 你 必须 完全 清楚 并 能 够 向 客户 解释 你 的 考虑 和 故障 发 生 时 预期 的 行为 。 此 外 ， 应 该 能 够 为 客户 提供 运 维 测 
试 指南 ， 用 来 在 解决 方案 正式 用 于 生产 环境 之 前 进行 验证 。 


表 5-9 描 述 了 与 延伸 集群 环境 最 相关 的 场景 ， 每 一 个 都 应 该 作为 基础 架构 验证 计划 的 内 容 来 进行 验证 。 


表 5-9 Virtual SAN 延 伸 集群 故障 场景 


虚拟 机 在 本 地 重启 ， 假 定 容量 可 用 
测试 场景 是 某 个 数据 中 | 重启 后 ， 虚 拟 机 在 同一 站 点 接受 访问 ， 因 为 该 站 点 拥有 超过 
单 主机 故障 心 有 一 台 主 机 故障 ， 包 括 | 50% 的 组 件 
首选 站 点 或 非 首 选 站 点 虚拟 机 的 计算 位 于 集群 中 的 另 一 台 主 机 上 ， 但 是 故障 主机 上 有 


副本 组 件 ， 要 保持 可 用 状态 ， 必 须 有 超过 50% 的 组 件 是 可 用 的 


首选 站 点 将 和 见证 一 起 构成 集群 ， 以 形成 仲裁 机 制 ， 结 果 是 
测试 场景 是 工作 负载 数 | 虚拟 机 只 能 运行 在 首选 站 点 

据 中 心 之 间 的 连接 中 断 ， 假 在 非 首 选 站 点 的 虚拟 机 将 个 再 能 够 访问 它们 的 存储 资源 。 这 

定 VSphere HA 主机 隔离 啊 | 些 虚拟 机 将 会 在 首选 站 点 启动 。 虽然 不 能 访问 底层 存储 ,但 非 

应 配置 为 VMware 建议 值 首选 数据 中 心 上 的 虚拟 机 在 故障 期 间 仍然 保持 开机 。 当 正常 运 

行 条 件 恢 复 时 ， 这 些 虚拟 机 由 vSphere HA 机 制 负 责 停机 


连续 丢失 5 个 心跳 (5 秒 ) 后 数据 中 心 故 障 可 以 被 检测 到 
故障 站 点 上 的 虚拟 机 由 vSphere HA 机 制 负责 重新 启动 。 因 为 
每 个 数据 中 心 都 有 数据 的 副本 ， 第 2 个 站 点 可 以 透明 接管 ,对 

这 一 测试 模拟 在 首选 或 | 机 时 间 很 短 
者 非 首 选 站 点 上 出 现 全 数 | vSphere 管理 员 可 以 继续 创建 新 的 虚拟 机 ， 但 是 如 
据 中 心 故障 FTT=1, 计 它们 会 处 在 不 合 规 的 状态 ( 缺 省 情况 下 强制 置 备 是 
用 的 )， 故 障 站 点 重新 在 线 后 ， 系 统 可 以 检测 到 ， 并 开 pie 
化 的 数据 执行 重 同步 操作 。 重 同步 完成 以 后 ，vSphere 管理 员 
可 以 使 用 DRS 基于 关联 规则 来 重新 分 布 虚拟 机 


网 络 分 区 


。- 于 | 了 YN ep 
生产 数据 中 心 完 全 


故障 





( 续 ) 
测试 预期 的 行为 
虚拟 机 的 IO 通信 不 受 影响 ， 可 以 继续 运行 ， 不 会 中 断 ， 两 
这 个 故障 以 昌 
人 故 库 葱 景 醒 拟 见 证 | 个 生产 中 心 仍然 可 以 创建 仲裁 当 见证 站 点 恢复 正常 后 ， 会 同 


见证 站 点 故障 站 点 完全 失效 ， 不 能 访问 


步 Ry 到 见 -V 名 V1 和 于 h 本 象 以 于 县 
ype 步 元 数据 信息 ， 直 到 见证 设备 获得 了 所 有 更 新 对 象 的 信息 。 如 


果 需 要 ， 也 可 以 创建 个 新 的 见证 设备 ， 连接 到 现存 的 集群 


和 前 面 的 测试 类 似 ， 预 期 的 效果 是 运行 在 生产 中 心 的 虚拟 机 
生产 中 心 到 见证 中 | 这 一 场景 代表 连接 到 见证 | 不 受 影响 ， 一 定 会 有 一 个 拥有 全 部 数据 且 包 含 大 于 50% 组 件 
心 网 络 故 障 站 点 的 网 络 中 时 的 数据 中 心 存 在 。 当 网 络 连接 恢复 之 后 ， 见 证 设备 会 重新 在 
线 ， 所 有 新 的 元 数据 会 被 同步 





5.17 ”延伸 集群 的 互 操作 性 


Virtual SAN 延 伸 集 群 与 vSphere Replication、 增 强 的 vMotion 和 VMware Site Recovery Manager 可 以 完全 互 操作 。 这 


些 解决 方案 使 用 户 在 灾难 避免 、 灾 难 恢复 、 负 载 移 动 性 和 数据 保护 方面 有 了 更 多 选择 。 
支持 限制 
有 一 些 在 Virtual SAN 单 站 点 设计 中 支持 的 vSphere 特 性 并 不 被 延伸 集群 环境 所 支持 : 
. 容错 ， 包 括 SMP 和 单 处 理 器 版 本 ， 在 Virtual SAN 延 伸 集 群 中 不 受 支持 。 


.Microsoft Windows Server Failover Clusteting (WSFC) 在 特定 配置 的 单 站 点 Virtual SAN 集 群 中 受 支持 ， 但 是 延伸 集群 不 支 
持 。 


Virtual SAN 延 伸 集 群 中 可 以 配置 的 容错 数量 值 只 能 是 1， 而 单 站 点 环境 中 这 个 数值 最 大 可 以 是 3。 
. 在 Virtual SAN 延 伸 集 群 中 ， 最 多 可 以 配置 3 个 故障 域 。 


.Virtual SAN 延 伸 集 群 需要 Viftual SAN 企 业 版 许可 。 


第 6 章 Web-Scale Virtual SAN 平 台 设 计 


Web-scale 这 一 词 的 概念 ， 最 早 是 由 Gartner 在 2013 年 提出 的 ， 指 的 是 一 种 架构 方法 ， 基 于 这 种 方法 超大 规模 云 提供 商 (如 
Google、Amazon、Facebook、Netflix 和 其 他 厂商 等 ) 可 以 为 大 型 企业 IT 组 织 和 服务 提供 商 提供 所 需 的 服务 保障 能 力 ， 建 立 和 
运 维 一 个 极 大 规模 的 基础 设施 平台 。 同 时 ，Web-scale 的 目的 也 不 仅仅 是 构建 极 大 规模 的 基础 架构 ， 还 可 通过 一 套 固定 的 流程 
和 架构 标准 化 来 提高 基础 架构 运营 的 敏捷 性 。 


Web-scale 不 是 一 项 单一 的 技术 ， 它 是 一 种 适用 于 任意 规模 数据 中 心 的 架构 和 管理 的 方法 论 ， 借 助 于 标准 化 和 可 重复 的 构 
建 块 (building-block) 的 设计 方法 ， 构 建 满足 不 同业 务 需求 的 基础 架构 。 


以 下 是 大 型 企业 IT 组 织 或 云 服务 提供 商 在 考虑 构建 基于 Web-Scale 的 基础 架构 时 的 关键 要 求 : 
能 够 在 x86 服 务 器 上 提供 超 融 合 架构 (HCI) 平台 ， 具 有 完全 集成 的 计算 和 存储 组 件 。 
` 能 够 以 分 布 式 方式 提供 数据 和 应 用 服务 ， 包 括 集群 范围 内 分 发 资源 的 能 力 。 
* 系统 基础 架构 的 高 可 用 和 自我 修复 ， 包 括 能 够 提供 故障 隔离 和 分 布 式 系统 恢复 能 力 。 
通过 软件 定义 的 数据 中 心 概念 提供 API 驱 动 的 自动 化 ， 以 及 通过 底层 基础 架构 监控 进行 综合 分 析 。 
为 工作 负载 提供 关键 服务 需求 时 ， 具 备 跨 平台 同时 托管 多 种 应 用 类 型 的 能 力 。 


如 第 4 章 中 所 强调 的 ，Virtual SAN 集 群 具有 强大 的 可 扩展 性 ，vSphere 6 中 最 多 可 以 配置 64 个 节点 ， 可 以 轻松 支持 成 干 上 万 
的 虚拟 机 工作 负载 。 在 设计 Web-Scale 的 Virtual SAN 平 台 时 ， 有 两 种 基本 的 设计 策略 。 


.纵向 扩展 : 每 个 Virtual SAN 主 机 都 有 更 多 的 存储 资源 可 用 ， 但 总 体 Vittual SAN 节 点 数 较 少 。 


* 横向 扩展 : 通过 增加 Virtual SAN 节 点 数量 来 扩展 ， 但 最 终 占 据 更 大 的 总 体 空间 。 


在 Web-Scale 的 架构 设计 中 ， 架 构 师 通常 要 同时 考虑 纵向 扩展 和 横向 扩展 。 设 计 上 不 仅仅 考虑 每 个 Virtual SAN 集 群 是 否 
有 更 少 的 较 大 资源 主机 或 更 小 的 节点 ， 还 要 更 多 地 结合 用 户 的 业务 情况 设计 构建 块 ， 结 合 纵向 和 柄 向 扩展 架构 搭建 标准 和 可 预测 
的 平台 。 


6.1 纵向 扩展 架构 


Virtual SAN 环 境 中 的 纵向 扩展 策略 是 指 增加 每 台 主 机 上 可 用 的 存储 资源 的 数量 。 这 可 以 通过 增加 每 个 磁盘 组 中 的 容量 磁盘 
数量 或 增加 每 台 Virtual SAN 主 机 上 的 磁盘 组 数量 来 实现 。Virtual SAN 是 完全 支持 将 容量 磁盘 添加 到 现 有 磁盘 组 的 ， 如 图 6-1 所 
示 。 然 而 ， 企 业 或 服务 提供 商 在 设计 Web-scale 架 构 时 会 为 磁盘 组 配置 定义 好 的 构建 块 标准 ， 例 如 按 1: 4 比例 配置 混合 磁盘 
组 ,一 块 闪存 盘 为 4 块 容量 机 械 磁 盘 提 供 写 入 缓存 和 读 取 绥 存 。 














纵 问 
扩展 
磁盘 





























图 6-1 ”磁盘 组 纵向 扩展 策略 (增加 容量 磁 瘟 ) 


Virtual SAN 支 持 由 一 块 耐久 性 高 的 闪存 设备 和 最 多 7 块 容量 磁盘 组 成 磁盘 组 ， 这 7 块 容量 磁盘 可 以 是 机 械 硬盘 ， 也 可 以 是 内 
存盘 ， 取 决 于 设计 上 要 使 用 的 磁盘 组 类 型 。 此 外 ，Virtual SAN 集 群 中 的 每 个 主机 最 多 可 以 支持 5 个 磁盘 组 ， 每 个 磁盘 组 都 为 分 
布 式 Virtual SAN 数 据 存 储 的 总 容量 提供 存储 资源 。 


如 第 4 章 所 述 ， 使 用 多 个 较 小 的 磁盘 组 而 不 是 单个 大 型 磁盘 组 ， 可 以 减少 故障 域 ， 当 容量 磁盘 故障 时 重建 的 组 件 也 会 相应 变 
少 ， 从 而 重建 的 时 间 会 更 快 。 使 用 多 个 较 小 的 磁盘 组 ， 性 能 会 得 到 提升 ， 在 混合 模型 中 性 能 提升 更 加 明显 ， 如 图 6-2 所 示 。 在 磁 
盘 组 架构 中 使 用 更 多 的 闪存 设 备 ， 使 得 闪存 和 容量 存储 之 间 的 比例 变 小 ， 更 多 的 数据 将 会 驻 留 在 内 存 设备 高 速 的 读 取 缓存 
中 ，Virtual SAN 将 获得 更 好 的 性 能 。 


综 上 所 述 ，Virtual SAN 的 配置 很 重要 。 为 了 在 分 布 式 Virtual SAN 数 据 存储 上 获得 一 致 性 的 性 能 ， 建 议 在 集群 中 的 所 有 节点 
上 采用 统一 的 磁盘 组 配置 。 从 Virtual SAN 集 群 Web-Scale 架 构 角度 来 说 ， 更 加 不 建议 对 Virtual SAN 不 同 的 节点 采用 不 同 的 配 
置 ， 













I 
1 
,a 


“磁盘 组 3” 章 ” 磁盘 组 2 


纵向 扩展 磁盘 组 


eg 
型 
二 
说 


图 6-2” 磁 前 组 纵向 扩展 策略 (增加 磁盘 组 ) 


Web-Scale 架 构 设 计 中 的 纵向 扩展 策略 还 要 考虑 每 个 Virtual SAN 主 机 的 存储 |/O 控 制 器 的 数量 。 在 不 同 存储 控制 器 上 创建 
磁盘 组 时 ， 会 降低 故障 域 ， 同 时 控制 器 队列 分 布 在 所 有 的 存储 控制 器 上 ， 会 带 来 更 加 出 色 的 存储 性 能 。 


另 一 个 设计 上 的 考虑 点 还 包括 使 用 SAS 扩 展 器 代 蔡 额外 的 存储 控制 器 。 这 种 存储 技术 可 以 超出 普通 存储 控制 器 8、12、16 或 


24 块 驱动 盘 的 限制 ， 最 大 限度 地 利用 SAS 存 储 扩展 器 的 存储 能 力 。 


SAS 扩 展 器 将 额外 的 驱动 盘 放 在 单个 存储 控制 器 后 面 ， 这 比 添加 存储 控制 器 更 加 节省 成 本 。 然 而 ，SAS 扩 展 器 的 性 能 和 可 靠 
性 应 被 视 为 设计 上 的 风险 。 通 常 不 推荐 将 SAS 扩 展 器 包含 在 任何 Virtual SAN 平 台中 。 


6.2 ”横向 扩展 架构 


横向 扩展 策略 是 指 将 新 主机 添加 到 Virtual SAN 集 群 中 ， 同 时 增加 存储 资源 和 计算 资源 。 这 里 需要 说 明 的 是 ，Virtual SAN 计 
算 资 源 的 横向 扩展 是 可 以 独立 于 存储 单独 实现 的 ， 但 增加 Virtual SAN 节 点 无 法 只 扩展 存储 资源 ， 除 非 使 用 基于 DAS 的 JBOD 硬 
件 。 


Virtual SAN 支 持 在 正常 操作 期 间 热 添 加 节点 和 磁盘 组 ， 无 需 停 机 。 然 而 ， 与 数据 中 心 的 大 多 数 物理 硬件 打 补丁 需要 进入 维 
护 窗口 一 样 ，Virtual SAN 这 些 操作 通常 建议 在 软件 维护 窗口 期 执行 。 


图 6-3 说 明了 Virtual SAN 如 何 扩展 以 满足 最 苛刻 的 企业 或 服务 提供 商 的 环境 需求 。Web-Scale 架 构 下 的 单个 Virtual SAN 集 
群 最 大 64 个 节点 可 以 轻松 支持 数 以 万 计 的 虚拟 工作 负载 。 


6.3 ”基于 vSphere 主 机 集群 的 Web-Scale 设 计 


Virtual SAN 集 群 是 共享 存储 资源 的 边界 。 因 此 ， 在 规划 多 个 大 型 集群 的 设计 时 ， 请 考虑 以 下 关键 注意 事项 。 


1) 容量 规划 : 尽管 用 较 少 数量 的 大 型 集群 (大 型 集群 指 的 是 单个 集群 节点 数 多 ) 来 规划 未 来 扩展 可 能 更 为 简单 ， 但 在 总 体 
主机 数量 固定 的 前 提 下 ， 从 单个 集群 容纳 的 主机 数量 上 限 角 度 去 考虑 构建 块 设 计 ， 能 更 好 地 实现 集群 横向 扩展 。 例 如 ，16 个 24 
节点 的 集群 和 6 个 64 节 点 的 集群 相 比 ， 总 体 主 机 数量 相同 ,但 前 者 24 节 点 集群 显然 更 适合 按照 构建 块 方式 来 进行 集群 横向 扩展 。 


2) 硬件 成 本 : 由 于 Virtual SAN 集 群 需要 一 定数 量 的 备用 存储 资源 防止 出 现 故障 ， 在 考虑 Web-scale 时 ， 数 量 巨大 的 较 小 
资源 的 Virtual SAN 集 群 会 导致 硬件 成 本 更 高 。 


3) 安全 : 在 多 租户 或 多 线 业务 环境 中 ， 将 租户 或 业务 组 放 到 专门 的 Virtual SAN 集 群 是 分 隔 负载 的 一 个 好 方法 ， 并 通过 基 
于 角色 的 访问 控制 (Role-based Access Control，RBAC) 控制 访问 。 


4) 性 能 : 在 多 租户 或 多 线 业务 环境 中 ， 将 租户 工作 负载 或 特定 业务 应 用 放 到 专门 的 Virtual SAN 集 群 ， 确 保 设 计 的 资源 始 
终 为 这 些 用 户 和 应 用 使 用 。 


6.4 构建 块 集 群 和 Web-Scale 横 向 扩展 架构 


Virtual SAN 集 群 设计 的 一 个 简单 并 可 扩展 的 方法 是 构建 块 方法 ， 这 个 方法 也 被 多 个 云 服务 提供 商 和 大 型 企业 私有 云 客户 使 
用 。 构 建 块 的 每 个 集群 都 是 一 个 标准 的 资源 容器 ， 置 备 为 提供 简单 、 可 扩展 的 计算 和 人 存储 资源 。 按 照 这 种 方法 ， 不 仅 可 以 实现 跨 


数据 中 心 扩 展 ， 还 可 以 保证 扩展 的 一 致 性 ， 消 除 配置 偏差 ， 减 少 运 维 工作 量 。 这 种 方法 同时 也 是 最 简单 和 最 有 效 的 方式 ， 以 灵活 
的 解决 方案 满足 大 型 企业 IT 组 织 和 云 服务 提供 商 的 Web-Scale 及 平台 扩展 需求 。 这 种 构建 块 方法 通过 对 Virtual SAN 主 机 、 集 群 
和 服务 器 机 柜 的 配置 制定 构建 标准 ， 提 供 可 管理 和 可 支持 的 基础 架构 。 


横向 扩展 Virtual SAN 主 机 
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图 6-3 ”基于 Virtual SAN 的 vSphere 集 群 纵向 扩展 和 横向 扩展 到 8 个 主机 


在 大 规模 部 署 时 ， 标 准 化 的 构建 块 对 基础 架构 的 可 管理 性 和 可 支持 性 至 关 重要 ， 它 通过 标准 化 Virtual SAN 主 机 和 集群 的 物 
理 及 逻辑 配置 ， 消 除了 大 规模 部 署 时 的 差异 性 。 在 Virtual SAN 的 vSphere 和 集群 中 主要 通过 vSphere 主 机 配置 文件 (host 
profile) 实现 标准 化 ， 主 机 配置 文件 可 以 使 跨 主 机 和 Virtual SAN 的 集群 保持 构建 块 配置 的 一 致 性 。 


6.5 ”Web-scale 架 构 的 可 扩展 性 和 物理 资源 设计 


对 于 设计 一 个 可 扩展 且 规 模 达 到 | 数 百 甚至 数 干 台 主机 、 提 供 PB 级 存储 ， 并 支持 大 型 复杂 网 络 的 虚拟 基础 架构 ， 如 何 提高 
扩展 性 是 一 个 关键 问题 。 在 扩展 大 型 物理 Virtual SAN 平 台 的 同时 要 保证 平台 可 控 、 合 规 及 安全 ， 对 于 成 功 的 Web-Scale 是 至 关 
重要 的 。 从 规划 可 扩展 性 的 第 一 天 开始 ， 就 要 采用 预定 义 的 构建 块 方法 进行 设计 。 


此 外 ， 每 台 主 机 的 安装 和 配置 过 程 都 应 该 标准 化 ， 让 每 个 组 件 的 安装 步骤 保持 一 致 。 物 理 组 件 配置 的 标准 化 对 于 Web- 
Scale 基础 架构 的 可 管理 性 、 一 致 性 和 可 支持 性 等 方面 至 关 重 要 。 整 个 过 程 的 标准 化 可 消除 差异 性 ， 减 少 补丁 管理 涉及 的 工作 
量 ， 有 助 于 提供 一 个 更 加 灵活 的 构建 块 解决 方案 。 


尽管 Virtual SAN 平 台 配置 和 扩展 的 一 些 方面 可 能 取决 于 硬件 供应 商 ， 但 这 些 也 应 该 是 Web-scale 的 Virtual SAN 平 台 设 计 
需要 考虑 的 一 部 分 。 如 图 6-4 所 示 的 示例 描述 了 一 个 常见 的 构建 块 场景 。 


在 这 个 例子 中 ， 每 个 Web-Scale 的 单元 由 96 个 机 架 式 Virtual SAN 主 机 组 成 ， 配 置 为 4 个 24 节 点 集群 ， 主 机 平均 安放 在 6 个 服 
务 器 机 柜 中 。 每 个 Web-Scale 的 单元 还 包含 两 个 48 端 口 10GbE 交 换 机 和 两 个 1GbE IPM I 管理 交换 机 ， 用 于 带 外 连接 。 每 个 单元 
设计 为 Virtual SAN 提 供 多 个 故障 域 ， 以 及 计算 和 网 络 资源 。 


本 示例 中 的 Web-scale 单 元 的 数量 可 以 根据 设计 要 求 及 软 硬 件 限制 ， 相 应 地 进行 横向 扩展 。 


如 图 6-5 所 示 ， 每 个 包含 96 台 主机 的 Web-Scale 单 元 可 以 横向 扩展 ， 并 在 多 个 数据 中 心 可 用 性 区 域 和 物理 数据 中 心 之 间 形 成 
一 个 真正 的 Web-Scale 平 台 。 


本 示例 中 ， 每 个 Web-Scale 单 元 中 的 vSphere 组 件 由 单个 vCenter Server 实 例 进行 管理 。 表 6-1 提 供 了 此 构建 块 Web-Scale 
架构 的 每 个 组 件 的 计算 、 存 储 和 网 络 资源 清单 。 
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Web-Scale 单 元 物理 架构 


图 6-4 Web-Scale 单 元 逻辑 架构 
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图 6-5 Web-Scale 单 元 数据 中 心 横向 扩展 策略 
表 6-1 构建 块 Web-Scale 架 构 扩 展 性 示例 




















资 源 主 机 Web-Scale 单元 
10.5TB 
内 存 512GB DDR3 ei 42TB 
,3 节点 为 HA 预 外 
2X Intel E5 8-Cor 1 041.6GH 
CPU ES i ee 4 166.4GHz 
3.1 GHz = 49.6 GHz 4 , 3 节点 为 HA 预 留 资 
高 性 能 存储 集 一 级 ) sf i 
高 性 能 存储 集群 ( ~20k IOPS 读 ~480k IOPS 读 ~1920k IOPS 读 
1X400 GB MLC SSD > 二 的 
Ca ~15k IOPS 混合 ~360k IOPS 混合 ~1440k IOPS 混合 
rh > 6TB 裸 存储 144TB 裸 他 576 TB 裸 存 
ee 裸 存储 裸 存储 宰 存 储 
标准 存储 集群 (二 级 ) a 
~15k IOPS 读 -360k IOPS 读 ~1440k IOPS 
1X400 GB MLC SSD Oe , 2 Ee 
Loe ni er ~10k IOPS 混合 ~240k IOPS 混合 ~960k IOPS 混合 
109 时 ; 
14 TB 裸 存储 336TB 裸 存 1.3PB 神 存 
sp 六 裸 存 储 3 裸 存 储 3PB 裸 存储 
容量 FE 储 集群 ( -级 ) \ 二 ,+ Pe 
会 量 存储 集 竹 ~10k IOPS 读 ~240k IOPS 读 ~960k IOPS 读 
2X400 GB MLC SSD 这 人 2 
ni ~5k IOPS 混合 ~120k IOPS 混合 ~480k IOPS 混合 
和 40 TB 裸 存 储 960 TB 裸 存 储 3.7PB 裸 存储 
10X4 TB 7.2k NL-SAS Sal TE 由 人 
1 920Gbps 
允 络 带宽 20Gbps 480Gbp: so 
网 络 审 袖 Ps ( 80Gbps MLAG 至 将) 


注意 在 此 示例 中 ，IOPS 基 于 70% 读 取 和 80% 混 合 (随机) I/O 负 载 。 


这 个 例子 只 是 Web-Scale 平 台 架 构 中 的 一 种 。 


Web-Scale 构 建 块 设计 方 面 的 关键 考量 点 如 下 : 


平台 增长 预期 


` 硬件 可 用 性 和 交 货 周期 


这 种 级 别 的 可 扩展 的 Virtual SAN 物 理 基 础 架构 平台 


设计 非常 复杂 ， 它 在 


: 物理 硬件 可 扩展 性 限制 (如 管理 工具 ) 
“ 资本 支出 和 硬件 折旧 考虑 


. 数据 中 心 电 源 、 空 间 、 区 域 及 冷却 限制 


6.6 Web-Sscale 叶 - 背 架 构 


传统 的 三 层 (核心 、 汇 聚 和 访问 ) 网 络 拓扑 架构 虽然 对 网 络 数据 进出 数据 中 心 进行 过 优化 ， 但 并 不 适用 于 Web-Scale 的 


Virtual SAN 平 台 跨 机 架 内 部 数据 传输 。 


另 一 方面 ， 在 第 4 章 中 介绍 过 的 叶 - 背 (Leaf-Spine) 架构 使 用 多 重 拓扑 ， 通 过 使 用 等 价 多 路 径 (ECMP) 来 主动 管理 两 个 端 
点 之 间 的 多 个 路 径 。 此 外 Se 二 下 和 (或 胖 树 ) 的 设计 实现 部 署 ， 无 需 再 使 用 其 他 交换 
机 组 件 。 叶 - 背 拓 扑 的 关键 特性 与 Web-Scale 的 Virtual SAN 平 台 相 关 ， 包 括 : 


“ 可 变 长 度 的 Spine 使 用 ECMP， 在 Leaf 和 Spine 交 换 机 之 间 有 多 个 可 用 路 径 时 ， 可 以 做 出 多 种 设计 选择 。 


. 这 种 架构 也 指引 着 未 来 的 高 性 能 和 自动 化 软件 定义 网 络 平台 (如 VMware NSX) 。 
图 6-6 展 示 了 使 用 多 路 径 拓 扑 的 叶 - 背 架 构 ， 与 上 一 节 中 描述 的 Web-scale 架 构 相 一 致 。 
在 Virtual SAN 的 扩展 设计 中 还 需要 考虑 的 有 : 


* 每 个 Virtual SAN 集 群 都 应 使 用 专 有 的 VLAN 进 行 隔离 复制 和 工作 负载 。 这 将 Virtual SAN 集 群 流量 与 任何 外 部 干扰 隔离 开 
可 更 方便 地 进行 故障 排查 。 


类 


. 在 Virtual SAN 6 中 ， 为 了 使 Virtual SAN 集 群 能 够 支持 64 个 节点 ， 必 须 在 集群 所 有 主机 上 设置 3 个 选项 。 
1) 集群 中 每 个 主机 设置 高 级 选项 ， 增 加 节点 支持 。 
esxcli System settings advanced set -0 /VSAN/gotoll -i 1 

2) 增加 TCP/IP 堆 大 小 。 

esxcli System settings advanced set -0o /Net/TcpipHeapMax -1 1024 
3) 将 客户 端 限制 设置 为 65， 最 多 允许 64 台 主机 。 

esxcli System settings advanced set -0 /CMMDS/clientLimit 65 
必须 重新 启动 所 有 主机 才能 使 这 些 更 改 生效 。 还 应 该 查看 VMware 知识 库 上 相关 文章 的 最 新 配置 建议 。 
此 外 ，Web-Scale 扩 展 设计 包括 以 下 最 大 值 : 

. 在 Virtual SAN 5.5 中 集群 最 多 32 个 节点 ，6.2 中 集群 最 多 64 个 节点 。 


* 每 个 混合 磁盘 组 中 都 只 能 使 用 一 个 缓存 闪存 设备 。 





: 每 个 磁盘 组 可 以 使 用 1 一 7 个 容量 机 械 磁 盘 或 容量 闪存 设备 。 

- 每 个 主机 最 多 有 5 个 磁盘 组 。 

.Virtual SAN 5.5 VMDK 大 小 最 多 为 2TB，6.2 中 最 大 62TB。 

.Virtual SAN 5.5 中 每 个 主机 最 多 可 容纳 100 个 虚拟 机 ，6.2 每 个 主机 的 虚拟 机 数 为 200。 
除了 这 些 设计 最 大 值 外 ， 表 6-2 还 强调 了 在 规划 大 型 Virtual SAN 部 署 时 需 遵 守 的 最 大 值 。 


表 6-2 Virtual SAN 6.0、Virtual SAN 6.1 或 Virtual SAN 6.2 最 大 值 

















属 性 最 大 值 
每 个 集群 的 Virtual SAN 数据 存储 1 
每 个 主机 的 最 大 虚拟 机 数 200 
每 个 主机 的 最 大 组 件数 9 000 
每 个 集群 的 最 大 虚拟 机 数 6 400 
每 个 集群 受 HA 保护 的 最 大 虚拟 机 数 2 048 
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图 6-6 Web-Scale 叶 - 瑚 架构 





Virtual SAN 和 Virtual Volumes 都 能 够 为 基于 vSphere 的 用 例 提供 相应 的 解决 方案 ， 如 图 7-1 所 示 。 然 而 ， 根 据 具体 负载 类 
型 的 不 同 需求 和 要 求 ， 这 两 者 在 设计 和 实施 方面 也 会 有 天 壤 之 别 。 因 此 ， 从 项 目 伊 始 ， 就 需要 在 设计 过 程 中 考虑 到 客户 的 具体 用 
例 ， 以 确保 环境 能 够 满足 用 户 特定 应 用 场景 的 要 求 ， 这 一 点 十 分 重要 。 举 例 来 说 ， 设 计 一 个 基于 Virtual SAN 的 超 融合 基础 架 
构 ， 用 来 实施 需要 高 性 能 的 关键 业务 Oracle RAC 应 用 ， 必 然 与 设计 一 个 为 开发 平台 提供 灾难 恢复 目标 的 架构 截然 不 同 。 
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DMZ、 边 界 远程 办 公 室 、 分 支 
网 络 或 边界 集群 = 机 构 (ROBO) 集群 





图 7-1 Virtual SAN 用 例 概述 
典型 的 Virtual SAN 用 例 包 括 (但 不 限于 ) 以 下 内 容 : 
“ 第 1 层 负载 (虚拟 化 的 关键 业务 应 用 ) 
* 第 2 层 和 第 3 层 负载 
“ 虚拟 桌面 基础 架构 (VDI) 和 最 终 用 户 应 用 
` 测试、 开发 和 分 阶段 负载 
* 备份 和 灾难 恢复 目标 存储 
隔离 DMZ、 周 边区 域 或 边界 集群 
. vSphere 管 理 或 云 管 平台 (CMP) 集群 
* 双 节 点 远程 办 公 室 /分 支 机 构 (ROBO) 解决 方案 
“ 支持 Virtual SAN 的 延伸 集群 


Virtual SAN 集 群 和 虚拟 卷 ， 与 软件 定义 存储 模式 紧密 结合 ， 在 充分 考虑 了 客户 应 用 的 具体 需求 前 提 下 ， 可 以 在 一 种 设计 中 
满足 大 多 数 vSphere 负 载 用 例 的 要 求 。 


本 章 介绍 的 用 例如 下 : 每 个 用 例 都 从 整体 上 使 用 了 Virtual SAN 平 台 的 功能 ， 并 描述 了 如 何 将 每 个 组 件 集成 在 一 起 ， 为 常见 
的 业务 需求 提供 相应 的 解决 方案 。 此 外 ， 这 些 用 例 还 展示 了 Virtual SAN 的 组 件 如 何 与 其 他 基于 vSphere 的 技术 相 集 成 ， 以 及 如 
何 通过 这 种 集成 来 搭建 高 度 可 用 且 易 于 管理 的 安全 存储 平台 。 


Virtual SAN 环 境 的 设计 、 部 署 和 管理 对 于 不 同 的 |T 组 织 (甚至 有 时 在 虚拟 数据 中 心 内 部 ) 都 会 有 所 不 同 。 一 些 IT 组 织 利用 
软件 定义 的 解决 方案 ， 一 次 性 将 所 有 应 用 都 迁移 到 新 平台 上 ， 充 分 地 享受 Virtual SAN 环 境 所 带 来 的 全 部 功能 和 优势 。 然 而 ， 另 
一 些 IT 组 织 则 可 能 会 采取 一 些 更 加 审慎 而 细致 的 方法 ， 逐 步 构建 Virtual SAN 环 境 平 台 ， 仪 在 硬件 生命 周期 需要 更 新 时 才 切 换 到 
Virtual SAN 环 境 ， 迁 移 相应 的 应 用 ， 同 时 Virtual SAN 的 功能 也 是 在 需要 的 时 候 才 会 启用 。 


7.1 用 例 概 述 


Virtual SAN 基 础 架构 为 当今 不 断 变化 的 商业 环境 所 需 的 所 有 负载 类 型 提供 了 一 种 富有 成 效 的 存储 解决 方案 。 在 这 些 环境 
中 ， 关 键 任务 应 用 的 正常 运行 时 间 以 及 从 系统 故障 中 快速 恢复 的 能 力 对 于 满足 服务 级 别 协议 (SLA) 至 关 重 要 。 


本 章 定义 的 每 个 用 例 的 一 个 关键 要 求 是 ， 确 保 在 设计 中 充分 考虑 对 每 个 目标 负载 的 应 用 评估 ， 确 保 主 机 的 磁盘 组 配置 可 以 满 
足 应 用 的 性 能 和 可 用 性 要 求 。 


通常 ， 企 业 IT 组 织 或 云 服务 提供 商都 会 将 不 同类 型 的 应 用 负载 (如 DevOps、 生 产 和 关键 业务 应 用 ) 分 开放 置 到 专用 的 
Virtual SAN 平 台 上 。 如 图 7-2 所 示 ， 这 些 专用 集群 (通常 称 为 集群 岛 ) 用 于 隔离 具有 特定 性 能 、 许 可 或 安全 要 求 的 资源 。 


与 其 他 设计 一 样 ，Virtual SAN 设 计 的 关键 在 于 分 析 应 用 需求 和 依赖 关系 、 对 目标 负载 进行 全 面 评估 以 及 对 存储 策略 先决 条 
件 进行 验证 。 同 时 ,一 个 好 的 做 法 是 ， 严 格 地 反映 目标 生产 环境 基础 架构， 使 分 阶段 环境 或 预 生产 环境 的 存储 策略 与 生产 环境 存 


储 策略 保持 一 致 。 


Microsoft 第 1 层 SAP 第 1 层 
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图 7-2 Virtual SAN 集 群岛 设计 


许多 测试 和 开发 环境 具有 较 高 的 整合 率 和 | 临时 负载 。 针 对 这 种 用 例 ， 要 提供 一 个 稳定 一 致 的 Virtual SAN 平 台 ， 一 个 关键 设 
计 因素 就 是 提供 一 个 能 够 满足 大 量 虚 拟 机 需求 的 计算 和 存储 环境 。 在 这 种 情况 下 ， 可 用 性 和 容量 或 许 并 不 是 特别 重要 ， 因 为 这 种 
环境 可 以 在 需要 时 轻松 地 重新 创建 。 同 时 ， 负 载 也 可 以 是 一 次 性 的 ， 不 受 任何 SLA 的 约束 。 这 样 的 环境 具有 较 高 的 虚拟 机 部 署 周 
转 率 ， 因 此 自动 化 是 另 一 个 关键 考虑 因素 ， 我 们 将 在 第 9 章 中 进一步 讨论 。 


Virtual SAN 还 可 以 为 复制 数据 提供 一 个 灾难 恢复 解决 方案 目标 ， 通 常情 况 下 成 本 低 于 传统 硬件 解决 方案 。 解 决 方案 设计 所 
需要 的 备份 和 复制 机 制 ， 需 要 vSphere 的 其 他 产品 及 组 件 支 持 ， 包 括 vSphere Data Protection、vSphere Replication 和 
vCenter Site Recovery Manager 等 。 举 例 来 说 ， 解 决 方案 可 能 会 使 用 在 源 位 置 和 目标 位 置 都 会 安装 的 vSphere Replication 组 
件 ， 并 选择 使 用 site Recovery Manager 提 供 自动 化 机 制 ， 用 以 协调 虚拟 机 负载 的 故障 切换 ， 如 图 7-3 所 示 。 


要 在 灾难 恢复 环境 下 部 署 的 存储 平台 可 能 会 考虑 基于 容量 的 解决 方案 ， 而 不 需要 考虑 活动 站 点 的 性 能 或 可 用 性 。 但 是 ， 这 也 
要 考虑 在 故障 切换 到 灾难 恢复 站 点 时 客户 的 需求 如 何 ， 以 及 是 否 需 要 在 故障 切换 期 间 满足 相同 的 SLA。 因 此 ， 目 标 存 储 站 点 的 性 
能 是 不 可 忽视 的 重要 设计 考虑 因素 。 


Virtual SAN 平 台 的 另 一 个 用 例 是 提供 隔离 的 DMZ、 边 界 网 络 或 边界 集群 ， 如 图 7-4 所 示 。 一 个 好 的 常见 安全 做 法 是 ， 通 过 
为 这 些 公用 或 公开 的 应 用 设置 专用 的 集群 岛 来 为 DMZ、 边 界 网 络 或 边界 集群 负载 创建 一 个 边界 。 


使 用 Virtual SAN 可 以 在 计算 、 网 络 和 存储 层 将 此 用 例 的 环境 完全 隔离 到 其 自己 的 安全 区 域 中 。 使 用 Virtual SAN ， 可 以 轻松 
地 将 DMZ、 边 界 网 络 和 边界 集群 负载 与 其 他 受 防 火 墙 保护 的 安全 应 用 隔离 ， 并 且 可 以 更 容易 地 在 集群 级 别 和 底层 存储 系统 上 应 
用 企业 安全 策略 。 


在 Virtual SAN 集 群 中 设计 DMZ、 边 界 网 络 或 边界 集群 负载 时 ， 需 要 解决 的 一 个 关键 设计 因素 是 ， 如 何 将 负载 迁 入 和 迁 出 隔 
离 集 群 中 的 主机 。 这 样 考虑 是 因为 此 类 设计 通常 使 用 完全 隔离 的 安全 网 络 ， 因 此 ， 冷 迁移 可 能 是 将 应 用 移入 和 移出 此 安全 集群 岛 
的 唯一 方式 。 此 外 ， 完 成 冷 迁 移 任务 需要 相当 长 的 时 间 ， 因 此 需要 考虑 额外 的 运 维 时 间 。 


7.1.1 ” 双 节 点 远程 办 公 室 /分 支 机 构 设计 


Virtual SAN 6.1 中 引入 了 一 个 新 的 设计 配置 ， 就 是 双 节 点 远程 办 公 室 /分 支 机 构 (ROBO) 解决 方案 。 该 解决 方案 的 主要 目 
的 是 为 远程 地 点 提供 简单 的 本 地 计算 和 共享 存储 资源 ， 同 时 最 大 程度 地 减少 前 期 部 署 成 本 和 长 期 运营 开销 。 在 支持 此 ROBO 架 构 
之 前 ，Virtual SAN 环 境 的 主机 配置 最 低 是 三 节点 集群 。 然 而 ， 利 用 这 种 特定 的 ROBO 架 构 ， 便 可 以 使 用 外 部 见证 站 点 设计 双 节 
点 集群 ， 但 前 提 条 件 是 此 架构 反映 VMware 规定 的 支持 边界 。 
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图 7-3 ”灾难 恢复 解决 方案 架构 示例 
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图 7-4 在 NSX 中 实现 孤立 边界 集群 设计 


如 图 7-5 所 示 ， 双 节点 Virtual SAN 架 构 采用 了 故障 域 的 概念 ， 第 4 章 中 前 述 了 这 一 概念 。 位 于 远程 办 公 室 的 两 全 VMware 
ESXi 主 机 中 的 每 一 台 主机 代表 一 个 故障 域 。 在 Virtual SAN 架 构 中 ， 假 设 允 许 的 故障 数 (FTT) 等 于 1， 构 成 虚拟 机 的 对 象 通常 存 
储 在 两 个 故障 域 之 间 的 一 个 元 余 镜像 中 。 当 其 中 一 台 主 机 脱 机 时 ， 虚 拟 机 可 以 在 备用 节点 上 继续 运行 或 重新 启动 。 为 了 实现 这 一 
点 ， 需 要 一 个 见证 作为 Tie Breaker 来 获得 仲裁 ， 并 使 集群 中 继续 运行 的 节点 能 够 重新 启动 受 影响 的 虚拟 机 。 








客户 ROBO 站 点 企业 数据 中 心 
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双 节 点 Virtual SAN 架 构 见证 数据 中 心 站 点 
图 7-5 “远程 办 公 / 分 支 机 构 故 障 域 架构 


在 传统 的 Virtual SAN 集 群 中 ， 可 以 在 配置 的 主机 之 间 智 能 地 放置 见证 对 象 。 相 比 之 下 ， 在 双 节点 ROBO 架 构 中 ， 见 证 对 象 
位 于 外 部 的 其 他 站 点 上 ， 如 图 7-6 所 示 。 每 个 远程 办 公 室 实 例 所 需 的 见证 设备 节点 可 以 集中 放置 在 企业 的 数据 中 心 内 ， 甚 至 可 以 
托管 在 公有 云 平台 上 。 该 架构 通过 单个 vCenter Server 集 中 管理 所 有 ROBO 站 点 和 见证 节点 ， 从 而 实现 集中 操作 和 补丁 管理 。 


这 种 专用 的 见证 设备 经 过 专门 配置 ， 仅 用 于 存储 元 数据 ， 与 第 5 章 中 描述 的 延伸 集群 设计 相同 。 当 主机 发 生 故 障 时 ， 此 见证 
设备 提供 所 需 的 仲裁 服务 ， 如 图 7-7 所 示 。 


ROBO 解 决 方案 通常 适用 于 每 个 ROBO 站 点 有 少量 虚拟 机 而 每 个 位 置 又 需要 提供 高 可 用 解决 方案 的 情况 。 如 果 在 每 个 远程 双 
节点 集群 中 使 用 本 地 VMFS 人 存储 ， 或 者 不 使 用 某 种 共享 存储 设备 ， 则 该 双 节 点 集群 不 能 提供 vsphere High Availability 功 能 。 


ROBO 架 构 通过 使 用 专用 的 虚拟 设备 提供 见证 服务 ， 消 除了 在 ROBO 站 点 上 部 署 第 3 个 vSphere 主 机 的 需要 ， 既 降低 了 总 体 
成 本 ， 又 可 以 利用 共享 存储 的 高 可 用 性 优势 。 与 延伸 集群 的 架构 一 样 ， 见 证 虚拟 设备 是 一 个 经 过 特殊 修改 的 谋 套 ESXi 主 机 ， 专 门 
用 于 存储 见证 对 象 和 集群 元 数据 。 此 外 ， 与 Virtual SAN 延 伸 集 群 一 样 ， 见 证 虚拟 设备 既 不 能 用 于 扩充 解决 方案 的 计算 和 存储 容 
量 ,， 也 不 能 用 于 托管 虚拟 机 。VMware 仪 支持 这 种 双 节 点 架构 以 及 Virtual SAN 延 伸 集 群 设计 在 Virtual SAN 配 置 中 使 用 见证 设 
备 ， 如 第 5 章 所 述 。 
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图 7-6” 双 节点 ROBO 解 决 方案 架构 概述 
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图 7-7 见证 对 象 元 数据 架构 


与 Virtual SAN 延 伸 集群 的 部 署 一 样 ， 符 套 的 ESXi Virtual SAN 见 证 虚拟 设备 会 自动 部 署 并 嵌入 闪存 盘 和 机 械 磁 盘 。 在 置 备 
时 ， 其 中 一 个 见证 虚拟 设备 的 VMDK 将 被 标记 为 内 存 设备 。Virtual SAN 管 理 员 无 需 手动 配置 。 此 外 ， 托 管见 证 虚拟 设备 的 
vsSphere 主 机 中 不 需要 有 物理 闪存 设备 ， 如 有 必要 ， 此 虚拟 设备 的 所 有 虚拟 磁盘 都 可 以 进行 精简 置 备 。 








每 个 见证 组 件 需 要 16MB 的 存储 容量 来 存储 必要 的 元 数据 ， 每 个 对 象 对 应 一 个 见证 组 件 。 与 延伸 集群 的 架构 不 一 样 的 是 ， 大 
多 数 部 署 仅 在 每 个 远程 办 公 室 托管 少量 虚拟 机 ， 因 此 ，8GB 内 存 和 两 个 vCPU 的 小 型 配置 应 该 足够 ， 并 可 支持 最 多 750 个 组 件 。 


由 于 见证 设备 不 托管 虚拟 机 ， 它 不 需要 处 理 虚 拟 机 读 写 请 求 ， 因 此 远程 办 公 室 与 企业 数据 中 心 或 云 平台 之 间 的 网 络 连接 需求 
会 很 低 。 通 常 ， 采 用 一 个 可 用 带宽 为 1.5Mb/s 且 往返 时 间 (RTT) 延 时 最 多 为 500ms 的 WAN 连 接 ， 足 以 提供 双 节 点 集群 和 见证 
设备 之 间 的 网 络 通信 。 然 而 ， 与 传统 的 Virtual SAN 部 署 一 样 ， 必 须 启用 组 播 ， 以 便 双 节点 ROBO 集 群 中 的 主机 之 间 进 行 通信 。 
此 外 ， 与 见证 设备 进行 WAN 通 信 不 需要 启用 组 播 。 


ROBO 架 构 与 Virtual SAN 基 于 存储 策略 的 管理 (SPBM) 功能 ( 即 FTT) 息息相关 。 如 第 4 章 所 述 ， 此 功能 可 提供 镜像 配 
置 ， 进 而 为 虚拟 机 提供 n+1 元 余 。 在 Virtual SAN 双 节点 架构 中 ， 明 确 要 求 FTT 为 1， 因 为 恰好 配置 了 3 个 故障 域 ， 如 图 7-5 所 示 。 
通过 应 用 此 配置 ， 会 为 每 个 虚拟 机 创建 一 个 镜像 副本 ， 并 在 两 个 单独 的 物理 节点 上 自动 维护 。 双 节点 架构 中 的 一 台 主 机 出 现 故 障 
时 ， 这 种 机 制 可 以 使 用 户 能 够 继续 对 应 用 进行 完全 访问 ， 而 不 受到 任何 中 断 的 干扰 ， 或 者 在 几 分 钟 内 由 vSphere HA 进程 重新 启 
动 负载 。 应 用 的 可 用 性 水 平 最 终 取 决 于 是 驻 留 在 故障 节点 上 ， 还 是 配置 在 应 用 层 上 实现 高 可 用 性 ， 并 部 署 在 集群 中 的 两 个 节点 之 
间 进 行 负载 均衡 。 


在 双 节 点 集群 中 提供 应 用 可 用 性 的 另 一 个 选项 是 vsphere Fault Tolerance 功 能 。 此 功能 也 与 Virtual SAN 架 构 兼容 ， 可 在 主 
机 发 生 故 障 的 情况 下 ， 通 过 多 达 4 个 vCPU 为 负载 提供 持续 可 用 性 。 


如 前 所 述 ，vSphere HA (vSphere High Availability) 是 这 些 架构 和 这 些 用 例 的 关键 要 素 ， 因 为 在 主机 发 生 中 断后 重启 虚 
拟 机 时 必须 使 用 共享 存储 。 启 用 vSphere HA 后 ， 如 果 主 机 发 生 故 障 ， 受 影响 的 虚拟 机 将 在 集群 中 的 其 他 主机 上 重启 ， 从 而 使 停 
机 时 间 尽 可 能 短 。 然 而 ， 在 双 节 点 ROBO 架 构 中 ， 为 确保 有 足够 的 CPU 和 内 存 资 源 可 用 于 重启 所 有 受 影响 的 虚拟 机 ， 从 而 可 在 一 
台 主 机 上 有 效 地 运行 全 部 负载 ， 必 须 配 置 vSphere HA 准 入 控制 策略 ， 以 保留 内 存 和 CPU 资源 的 50% ， 而 不 管 可 用 人 存储 量 如 何 。 
因此 ， 在 此 配置 中 ， 双 节点 集群 中 只 有 50% 的 计算 资源 可 用 于 在 远程 办 公 室 站 点 上 运行 负载 。 


7.1.2 “Horizon 和 虚拟 桌面 基础 架构 


使 用 Virtual SAN 平 台 非 常 多 的 一 个 用 例 是 VDI， 它 是 通过 VMware Horizon 产 品 组 合 提供 的 ， 如 图 7-8 所 示 。 


VMware Horizon 平 台 可 从 高 可 用 资源 池 中 为 最 终 用 户 提供 桌面 ， 从 而 使 桌面 计算 实现 了 云 资源 的 灵活 性 和 敏捷 性 。 
VMware Horizon 使 最 终 用 户 能 够 在 任何 具有 可 用 连接 的 位 置 通过 多 种 设备 (如 Microsoft Windows、Mac OS X 和 Linux 桌 面 
计算 机 以 及 iOS 和 Android 平 板 电脑 和 手机 ) 访问 桌面 和 应 用 。 


Virtual SAN 提 供 了 一 个 可 扩展 、 可 重复 的 构建 块 存储 基础 架构 ， 完 全 符合 虚拟 桌面 预测 性 设计 部 署 模 式 。 此 外 ， 虚 拟 桌面 
所 用 的 存储 通常 要 求 高 速度 和 低 延 时 ， 所 以 成 本 比较 高 。 在 优化 的 VDI 环 境 中 使 用 Virtual SAN 可 以 实现 每 个 MO 的 低 成 本 ， 最 终 
实现 整体 成 本 的 显著 下 降 。 
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图 7-8 ”Virtual SAN 和 VDI 架 构 


为 Horizon 用 例 设计 和 实施 Virtual SAN 时 ， 需 要 考虑 几 个 具体 的 架构 设计 因素 。 例 如 ， 大 多 数 VDI 平 台 需 要 高 性 能 人 存储， 以 
减少 并 发 处 理 大 量 桌面 和 应 用 时 可 能 产生 的 延 时 。 然 而 ， 高 可 用 性 的 设计 可 能 并 不 像 在 虚拟 服务 器 负载 中 那么 重要 ， 因 为 在 许多 
桌面 平台 中 ， 虚 拟 桌面 是 一 次 性 的 ， 使 用 后 就 会 被 销毁 。 


这 种 负载 类 型 一 般 使 用 非 持久 链接 克隆 方式 (链接 克隆 是 Horizon View 置 备 虚拟 机 的 一 种 方式 ， 使 用 模板 和 快照 作为 基础 
镜像 生成 新 桌面 。 非 持久 指 的 是 虚拟 桌面 内 部 数据 非 持 久 ) 。 虽 然 应 用 可 用 性 也 很 重要 ， 但 一 般 不 在 桌面 内 部 进行 管理 ， 而 非 持 
久 链 接 克 隆 本 身 也 会 经 常 刷新 (刷新 操作 是 指 用 模板 和 快照 进行 刷新 ， 使 桌面 恢复 到 快照 时 的 状态 ) ， 从 而 导致 所 有 本 地 存储 的 
用 户 数据 丢失 。 此 外 ， 这 种 负载 类 型 还 可 以 提供 可 预测 的 存储 占用 空间 ， 用 全 闪存 配置 Virtual SAN， 从 而 以 最 小 的 存储 容量 利 
用 率 来 获得 更 高 的 性 能 。 


基于 以 上 原因 ， 为 此 负载 类 型 设计 存储 策略 时 ， 典 型 配置 如 下 : 

* 可 用 性 : 允许 的 故障 数 二 0 

: 容量 : (虚拟 机 的 数量 X ( 增 量 磁盘 最 大 增长 十 非 预 留 内 存 大 小 ) ) 十 副本 大 小 
"对象 空间 预 留 二 x% (其 中 x 基 于 桌面 负载 的 典型 磁盘 使 用 率 ) 


Horizon 虚 拟 桌 面 设计 还 可 能 会 使 用 其 他 负载 磁盘 类 型 ， 或 需要 存储 持久 性 的 各 种 桌面 数据 ， 因 此 需要 制定 不 同 的 FTT 保 护 
策略 。 


举例 来 说 ， 专 用 链接 克隆 通常 与 非 持 久 链接 克隆 有 相似 的 设计 考虑 因素 ， 它 们 都 需要 定期 重建 桌面 来 防止 链接 克隆 存储 容量 


过 快 增长 。 与 非 持 久 链接 克隆 一 样 ， 这 种 桌面 类 型 需要 单独 进行 应 用 和 配置 文件 管理 ， 用 来 保存 用 户 特 定 的 配置 。 专 用 链接 克隆 
负载 使 用 的 存储 策略 如 下 : 


. 可 用 性 : 允许 的 故障 数 二 1 
. 容量 : ( (虚拟 机 的 数量 X ( 增 量 磁盘 最 大 增长 十 非 预 留 内 存 大 小 ) X (FTT 十 1) ) 十 副本 大 小 
对 象 空间 预 留 : 二 x% (其 中 x 基 于 虚拟 机 的 磁盘 使 用 率 ) 


最 后 ， 完 全 克隆 桌面 通常 占用 更 大 的 Virtual SAN 磁 盘 占用 空间 ， 并 且 一 般 采 用 传统 的 桌面 应 用 管理 和 本 地 配置 文件 。 完 全 
克隆 负载 的 常见 存储 策略 如 下 : 


“ 可 用 性 : 允许 的 故障 数 二 1 
容量 : (VMDK 大 小 十 非 预 留 内 存 大 小 ) X (FTT 十 1) 


设计 基于 Horizon 并 使 用 Virtual SAN 的 解决 方案 ， 除 了 需要 考虑 传统 服务 器 基础 架构 的 一 些 注意 事项 之 外 ， 还 需 考 虑 的 内 
容 包括 (但 不 限于 ) : 


“Virtual SAN 即 是 Horizon View Composet， 它 会 在 首次 创建 池 时 创建 Virtual SAN 策 略 。 此 外 ， 如 果 需 要 ， 在 Hotizon 中 执行 刷 


新 、 重 构 或 重新 平衡 等 操作 时 会 枚 举 并 重新 创建 存储 策略 。 
.Virtual SAN 将 根据 桌面 池 的 类 型 创建 Virtual SAN 存 储 策略 ， 但 在 移 除 该 池 后 ， 不 会 删除 此 Virtual SAN 存 储 策略 。 
" Virtual SAN 不 支持 使 用 节省 空间 的 虚拟 磁盘 。 
- 在 设计 时 制定 适当 的 增 量 磁盘 增长 计划 ， 并 与 虚拟 桌面 刷新 周期 保持 一 致 。 
与 任何 Virtual SAN 设 计 一 样 ， 对 于 基于 Horizon 的 解决 方案 ， 你 必须 确保 了 解 如 下 信息 : 
" 了 和 解 客户 使 用 虚拟 桌面 基础 架构 的 业务 动因 。 
了解 Hotizon 与 Vittual SAN 的 集成 。 
. 确定 构建 Horizon Virtual SAN 解 决 方案 所 需 的 信息 。 
. 为 Horizon Virtual SAN 集 群 进行 容量 规划 ， 确 保 该 解决 方案 不 仅 可 以 保证 桌面 性 能 ， 还 会 考虑 到 规模 扩展 。 
. 在 客户 选择 VSAN 就 绪 节 点 、EVO: RAIL 或 自主 构建 的 硬件 时 ， 向 客户 提供 合理 化 建议 。 


构建 高 度 可 用 且 易 于 管理 的 Hotizon Virtual SAN 解 决 方案 。 


7.1.3 Virtual SAN 文 件 服务 


Virtual SAN 可 结合 第 三 方 软件 来 提供 文件 或 块 磁盘 服务 ， 如 图 7-9 所 示 。 这 样 ， 可 以 在 设计 中 考虑 在 Virtual SAN 上 添加 
SMB 或 NFS 等 文件 服务 (例如 VDI 用 户主 目录 或 ROBO 文 件 共 享 ) 。 这 些 第 三 方 解 决 方案 使 用 SPBM 和 Virtual SAN 底 层 功 能 来 
提供 抽象 的 磁盘 资源 池 ， 用 于 满足 多 种 业务 应 用 的 存储 架构 要 求 。 
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图 7-9 ”将 Virtual SAN 用 作 通 用 对 象 存储 平台 


尽管 本 书 不 会 详细 讨论 这 些 第 三 方 解 决 方案 ， 但 可 以 考虑 通过 两 款 产 品 满足 这 些 特定 用 例 要 求 ， 包 括 NexentaConnect for 
Virtual SAN 和 EMC CloudArray。 


7.2 解决 方案 架构 示例 : 基于 Virtual SAN 构 建 云 管 平台 


本 节 介绍 典型 的 Virtual SAN 用 例 : 为 专 有 云 管 平台 (CMP) 集群 提供 存储 资源 。 同 时 ， 还 介绍 Virtual SAN 如 何 集成 到 基 
础 架构 设计 中 并 展示 相应 的 功能 和 配置 。 其 中 ， 设 计 示例 用 于 解释 该 架构 以 及 采用 特定 配置 和 设计 决策 的 原因 。 


每 个 客户 的 设计 都 是 独特 的 ， 基 于 其 具体 基础 架构 和 应 用 要 求 。 以 下 内 容 仅 概括 介绍 了 真正 实施 之 前 需要 进行 的 设计 ， 而 不 
会 对 此 设计 进行 详细 描述 。 


最 近 几 年 ， 随 着 新 的 管理 工具 以 及 用 于 维护 复杂 的 自助 式 自动 化 组 件 的 服务 不 断 发 展 ， 专 用 的 带 外 集群 在 为 云 管 平台 的 运 维 
管理 提供 完全 集中 式 生 态 系统 方面 具有 显著 的 优势 。 


在 此 用 例 中 ， 云 管 平台 集群 承载 了 用 于 维护 IT 组 织 云 基础 架构 的 所 有 组 件 和 服务 ， 并 与 其 他 最 终 用 户 应 用 负载 分 开 。 将 
CMP 基 础 架构 组 件 与 最 终 用 户 负载 分 开 ， 可 以 更 好 地 分 隔 资源 ， 并 提高 环境 的 易 管理 性 和 安全 性 。 


实施 专用 云 管 平台 集群 的 一 个 传统 障碍 是 成 本 。 创 建 专用 于 云 和 其 他 管理 系统 的 带 外 基础 架构 往往 成 本 过 高 。 而 有 了 
VMware Virtual SAN， 企 业 IT 组 织 和 云 服 务 提供 商 便 不 再 需要 购买 昂贵 的 、 专 用 于 托管 管理 组 件 的 共享 存储 了 。 


设计 支持 带 外 云 管理 基础 架构 的 集群 与 设计 其 他 任何 独立 的 Virtual SAN vSphere 环 境 类 似 。 然 而 ， 在 设计 管理 组 件 时 ， 应 
确保 其 与 生产 系统 负载 之 间 没有 任何 依赖 关系 。 管 理 组 件 和 生产 负载 之 间 如 果 人 存在 依赖 天 系 ， 会 限制 管理 组 件 的 隔离 ， 进 而 导致 
在 管理 和 生产 系统 之 间 出 现 依赖 天 系 环 。 


在 该 示例 中 ， 云 管 平台 集群 会 承载 虚拟 机 和 设备 ， 为 整个 vsphere 环 境 提供 云 管理 基础 架构 服务 。 


典型 的 云 管 平 台 集群 包括 (但 不 限于 ) 以 下 组 件 : 


* vCenter Server 和 Platform Setvices Controller (PSC) 组 件 

“ VRealize Automation 云 平台 组 件 

* 用 于 管理 组 件 的 专用 SQL 数据 库 服务 器 

“ VCentet 支 持 助 手 

* vSphere Update Manager (VUM) 

* NSX Managet 

* vRealize Operations Manager 

VRealize Log Insight 节 点 

“ 第 三 方 软件 ， 如 防 病毒 和 其 他 运行 状况 管理 组 件 

: 第 三 方 管理 和 监控 软件 ， 如 超 融合 服务 器 供应 商 管理 工具 
* Active Directory 域 服务 组 件 ， 用 于 身份 验证 和 联合 身份 验证 服务 


在 混合 型 〈 即 管理 组 件 和 生产 组 件 混在 一 起 ) 的 生产 集群 中 运行 云 管理 组 件 会 让 故障 分 析 及 排除 非常 耗 时 ， 并 增加 在 灾难 恢 


复 情 况 下 找寻 管理 虚拟 机 的 难度 。 在 企业 基础 架构 中 将 专门 的 云 管理 集群 与 管理 组 件 隔离 (如 图 7-10 所 示 ) 主要 具有 以 下 优 
占 : 


Nm 


云 管 平台 ( CMP ) 集群 
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图 7-10 ”企业 云 管理 集群 架构 概述 


- 将 管理 组 件 与 其 管理 的 资源 分 开 。 


" 有 助 于 更 快 地 解决 故障 和 问题 ， 因 为 管理 组 件 会 严格 放置 在 一 个 易于 管理 的 较 小 集群 中 。 


. 将 生产 环境 中 运行 的 负载 与 用 于 管理 基础 架构 的 实际 系统 中 的 资源 分 开 ， 避 免 资源 争 用 。 
设计 专用 云 管 平台 需要 考虑 以 下 主机 、 人 存储 和 网 络 设 计 事项 : 
. 如 果 可 能 ， 避 免 从 本 地 磁盘 引导 ; 这 样 会 使 本 地 磁盘 无 法 用 于 Vittual SAN 磁 盘 组 。 
. 设计 高 可 用 性 vSphere 集 群 ， 每 个 组 件 都 设置 宛 余 
" 所 有 物理 组 件 都 至 少 配置 ht+1 宛 余 ， 确 保 虚 拟 和 物理 网 络 交换 的 高 可 用 性 。 


利用 Virtual SAN 提 供 的 共享 存储 实现 vSphere High Availability (HA) 、vSphere vMotion 和 vSphere 分 布 式 资源 调度 
(DRS) 。 


. 管理 环境 的 主要 目标 是 精简 性 。 设 计 一 个 简单 而 静态 的 环境 可 以 最 大 限度 地 减少 配置 错误 或 人 为 错误 导致 的 风险 ， 从 而 降 
低 恢 复 时 间 目 标 (RTO) 。 


Virtual SAN 集 群 所 需 的 最 少 主机 数量 是 3。 在 这 种 云 管 平台 中 ， 最 小 的 三 节点 集群 足以 为 管理 组 件 提 供 足 够 的 资源 ， 并 保 
持 n+1 的 运行 可 用 性 ， 而 缺点 是 在 运 维 期 间 不 足以 访问 存储 资源 。 因 此 ， 图 7-10 的 示例 使 用 了 四 节点 集群 。 如 果 管 理 集群 资源 有 
限 ， 或 者 需要 部 署 新 的 管理 组 件 ， 可 以 在 稍 后 扩展 主机 。 


尽 可 能 将 云 管理 集群 和 交换 机 物理 隔离 到 专用 机 架 上 ， 以 帮助 区 分 管理 负载 和 生产 负载 。 建 议 设计 带 外 云 管理 基础 架构 ， 
确保 影响 生产 系统 的 任何 事件 或 中 断 不 会 影响 管理 集群 。 同 样 ， 管 理 集 群 的 问 不 会 影响 生产 负载 。 





7.2.2 ”客户 设计 需求 和 约束 

需求 是 设计 的 关键 ， 要 确保 设计 成 功 ， 就 必须 满足 用 户 的 需求 。 约 束 是 指 对 Virtual SAN 或 vSphere 设 计 选 项 造成 限制 而 可 
能 无 法 满足 用 户 业 务 需 求 的 因素 。 

客户 为 云 管 平台 集群 设计 定义 了 以 下 关键 需求 和 约束 。 这 些 细节 基于 一 系列 研讨 会 而 收集 。 

需求 如 下 : 


管理 系统 在 设计 上 必须 支持 可 扩展 性 和 弹性 。 组 件 可 以 轻松 升级 、 迁 移 、 添 加 和 移 除 ， 而 不 会 对 云 管 平台 上 运行 的 应 用 产 
生 任何 影响 。 


* 管理 组 件 与 单独 的 管理 硬件 上 的 生产 负载 分 开 。 影 响 可 用 性 的 不 可 预测 事件 不 应 对 生产 系统 产生 影响 。 





- 设计 中 的 所 有 组 件 都 应 考虑 采用 n 十 1 元 余 。 


理 平 台所 需 服务 的 可 用 性 为 99.9%， 每 年 最 多 可 停机 维护 8.76 小 时 。 





“ 安全 性 需求 : 可 以 集中 记录 vSphere 和 其 他 管理 平台 组 件 事件 ， 并 且 高 度 可 用 ， 以 便于 进行 日 志保 留 。 
动 监控 所 有 vSphete 组 件 和 整体 解决 方案 在 利用 率 和 性 能 指标 方面 的 状态 。 
' 所 有 管理 组 件 都 要 将 安全 性 作为 所 有 配置 选项 的 主要 考虑 点 。 安 全 设计 应 符合 所 有 供应 商 最 佳 实践 。 


约束 如 下 : 


:Cisco 和 Intel 已 预先 选 为 首选 计算 平台 。 

: Cisco 物理 交换 机 已 预先 选 为 首选 网 络 平台 。 

. 共享 存储 将 通过 VMware Virtual SAN 独 家 提供 。 

:与 主机 和 核心 数据 中 心 的 网 络 连接 将 使 用 多 个 10GbE 连 接 。 


1. 主 机 计算 设计 


本 节 主 要 讨论 设计 示例 中 计算 组 件 的 设计 和 实施 细节 ， 其 目的 是 确保 在 云 管 平台 集群 中 构建 稳定 、 一 致 的 用 户 环境 。 


在 此 设计 示例 中 ， 计 算 资源 由 4 个 Cisco VSAN 就 绪 节 点 提供 ， 这 4 个 节点 配置 为 一 个 vSphere 集 群 ， 并 采用 vSphere HA 和 
DRS。 虽 然 使 用 三 节点 集群 可 以 满足 客户 的 计算 和 存储 资源 需求 ， 但 考虑 到 维护 期 间 无 法 满足 可 用 性 需求 ， 因 此 ， 配 置 了 4 台 
Cisco C 系 列 服务 器 。 具 体 配置 为 : 双 Intel Xeon CPU、256GB RAM、 一 个 直通 RAID 控 制 器 、1 个 400GB SSD 和 7 个 900GB 
10K SAS 磁 盘 。 每 个 集群 节点 都 会 在 一 个 内 部 安装 的 工业 级 32GB USB 设 备 上 运行 ESXi 6 虚拟 化 层 。 具 体 配置 在 下 面 的 图 表 中 进 


行 了 详细 介绍 。 


确保 集群 中 的 所 有 主机 尽 可 能 使 用 相同 的 硬件 ， 并 为 硬件 设置 一 致 的 配置 。 这 样 可 以 减少 补丁 管理 所 需要 的 运 维 工 作 量 ， 为 
将 来 的 变更 和 增长 提供 了 灵活 的 基础 架构 环境 。 


在 此 设计 示例 中 ， 可 以 更 容易 做 到 这 一 点 ， 因 为 客户 会 采购 Cisco UCS Virtual SAN 就 绪 节 点 来 构建 云 管 平 台 集 群 。Virtual 
SAN 就 绪 节 点 采用 了 一 种 经 验证 的 服务 器 配置 ， 已 通过 硬件 供应 商 的 Virtual SAN 部 署 测试 和 认证 ， 并 获得 服务 器 OEM 厂 商 和 
VMware 的 一 致 推荐 。 


从 Cisco C240 M3 机 架 式 服务 器 到 核心 交换 机 的 上 行 链 路 连接 有 很 多 选择 。 举 例 来 说 ，Cisco UCS Fabric Interconnects 可 
用 于 增强 主机 的 易 管理 性 ，Cisco B 系 列 刀 片 系统 也 具有 类 似 的 功能 。 然 而 ， 为 了 简化 管理 设计 ， 需 要 限制 成 本 ， 更 重要 的 是 ， 
为 了 使 云 管 平台 设计 不 会 与 生产 系统 使 用 相同 的 数据 路 径 ， 进 而 形成 依赖 关系 环 ，Cisco C 系 列 管理 硬件 将 使 用 安装 在 每 个 机 架 
式 机 箱 中 的 Cisco 1225-VIC PCle 融 合 网 络 适 配器 (CNA) 卡 ， 通 过 10Gb/s FCoE 直 接连 接 到 支持 第 3 层 链 路 的 Nexus 5548UP 
交换 机 。 


图 7-11 展 示 了 适用 于 云 管 平台 集群 的 Cisco UCS C240 M3 解决 方案 的 物理 架构 。 


Ciseo Nexus 5548UP 交 换 机 


ii 


Cisoc C240 M3 机 架 式 服务 器 





图 7-11 Virtual SAN 与 Cisco UCS 环 境 的 物理 架构 连接 细节 


采用 VMware Virtual SAN 解 决 方案 的 Cisco UCS C240 机 架 式 服务 器 的 详细 架构 和 配置 由 表 7-1 中 列 出 的 组 件 组 成 。 在 此 设 
计 示 例 中 ， 云 管理 集群 中 的 每 个 ESXi 主 机 都 具有 以 下 硬件 规格 。 


表 7-1 ESXi 主 机 硬件 规格 


属 性 规 格 


适 用 于 Cisco UCS C240 M3 
系列 机 架 式 服务 器 的 VMware ESXi 6 Update 2 | ISO 内 部 版 本 3620759 
vSphere 虚拟 化 层 ESXi 


4 台 Cisco UCS C240 M3 机 架 服务 天 (x86 服务 器 )， 每 台 服 务 需 包含 : 

e 2 个 Intel Xeon 处 理 需 E5-2660B CPU 

。 24 个 8GB 1600MHzDDR3 RDIMM，PC3-12800， 双 组 ，1.35SV (256 GB) 
e。 7 个 Seagate 900 GB SAS 磁盘 ( 10k) 

e 1 个 SAMSUNG 400 GB SAS SSD 

e 1] 个 Cisco 9300-8i 12G SAS HBA 

e 1 个 Cisco UCS VIC 1225 CNA 

e 2 个 Cisco Flexible Flash (FlexFlash) 卡 


Cisco UCS™ 


属 性 
Cisco C 系列 固件 和 IMC 


处 理 融 


Virtual SAN 存储 (每 节点 ) 


磁盘 控制 带 
磁盘 控制 器 队列 深度 


引导 设备 


网 络 


内 存 


每 台 主 机 配置 有 3 个 可 用 磁盘 组 之 一 ， 


AN 
放 必 


2.0(9e) 


双 Intel Xeon 处 理 器 E5-2660B 
( 2.20 GHz E5-2660 v2/95W 10C/25 MB 缓存 /DDR3 1866 MHz ) 


企业 级 性 能 SAS SSD: 1 个 400 GB 
矿 盘 : 7 个 900 GB 10k SAS (SFF) 


Cisco 9300-8i 12G SAS HBA 
1024 
32 GB 工业 级 、 宽 温度 USB/SD 闪存 驱动 器 


Cisco UCS VIC 1225 CNA 
配置 有 : 2 个 10 Gigabit 以 太 网 连接 (在 VLAN 网 络 设 计 中 ， 配 置 802.1Q 


中 继 端 口 ) 


256 GB 


每 个 磁盘 组 由 1 个 400GB SSD 和 7 个 900GB 10k SAS 磁 盘 组 成 。 每 组 配置 使 用 Cisco 


UCS C240 M3 机 架 式 服务 器 上 24 个 插 槽 中 的 8 个 。 


表 7-2 列 出 了 管理 主机 的 CPU 和 内 存 需求 ， 以 及 4 台 主 机 上 的 可 用 资源 总 量 。 


属 性 
CPU 数量 ( 插 槽 ) 
每 个 CPU 的 核心 数 
每 个 CPU 核心 的 主 频 
每 个 CPU 的 主 频 总 计 
可 用 CPU 主 频 总 计 


建议 的 主机 CPU 最 大 使 用 率 
每 台 主 机 的 可 用 CPU 主 频 


物理 内 存 总 量 


建议 的 主机 RAM 最 大 利用 率 


可 用 内 存量 


2. 引 导 设 备 架构 


在 此 设计 示例 中 ，VMware ESXi 从 板 载 的 Cisco Flex Flash SD 卡 引 导 。 两 个 Cisco Flex Flash SD 卡 采用 RAID 1 配置 ， 以 便 


通过 宛 余 保障 云 管理 环境 的 可 靠 | 


请 注意 ， 主 机 服务 器 中 由 Virtual SAN 使 用 的 永久 磁盘 不 能 用 作 引 导 设 备 。 在 典型 的 Virtual SAN 环 境 中 ， 你 可 以 将 主机 配置 


表 7-2 主机 资源 


总 可 用 量 ( 4 台 主 机 ) 
| 

80% 80% 

256GB 1 024GB 

80% 80% 

153.6GB 614.4GB 


为 从 USB、SD 或 其 他 非 持久 存储 引导 ， 以 便 尽 可 能 地 使 可 用 于 Virtual SAN 磁 盘 组 的 永久 磁盘 插 槽 数 最 多 。 此 外 ， 还 请 注意 ， 当 
ESXi 安 装 设备 是 USB 设 备 或 SD 卡 时 ， 部 署 期 间 不 会 自动 在 安装 介质 上 创建 本 地 临时 分 区 ， 因 此 缺 省 情况 下 ， 在 主机 重新 引导 后 
不 会 在 本 地 保留 日 志 。 有 关 从 非 持久 存储 引导 主机 时 的 建议 的 更 多 信息 ， 请 参阅 第 4 章 。 


7.2.3 ”集群 配置 
vSphere 云 管理 主机 及 其 资源 将 整合 在 一 起 并 构成 一 个 集群 ， 该 集群 包含 可 分 配给 虚拟 机 的 所 有 CPU、 内 存 、 网 络 和 存储 资 
源 。 为 了 最 大 限度 地 提高 资源 利用 率 并 满足 可 用 性 要 求 ， 该 集群 将 使 用 以 下 vsphere 可 用 性 和 负载 均衡 技术 进行 配置 : 
VSphete vMotion 
. VSphete 分 布 式 资源 调度 


* vSphere High Availability 


1.vSphere High Availability 


如 果 主 机 或 特定 虚拟 机 出 现 故障 ， 云 管 平台 集群 将 使 用 vSphere High Availability (HA) 自动 恢复 虚拟 机 。 在 Virtual SAN 
环境 中 ，vSphere HA 的 行为 与 传统 机 制 略 有 不 同 ， 通 常 不 会 使 用 外 部 数据 存储 检测 信号 ， 因 此 外 部 数据 存储 检测 信号 就 变 得 无 
关 紧 要 。 此 外 ，HA 代 理 使 用 Virtual SAN 网 络 进行 通信 ， 而 不 是 使 用 管理 网 络 。 但 是 ， 主 机 仍然 使 用 管理 网 关 来 检测 是 否 已 被 隔 
离 。 有 关 Virtual SAN 集 群 的 vSphere HA 的 更 多 信息 ， 请 参阅 第 4 章 。 


在 此 云 管 平台 集群 设计 示例 中 ， 如 图 7-12 所 示 。vSphere HALn+1 方 式 及 用 基于 百分比 的 准 入 控制 策略 ， 而 不 是 定义 集群 
可 容忍 的 主机 故障 数量 或 指定 特定 的 故障 切换 主机 。 


作为 四 节点 集群 ， 为 了 确保 n+1 宛 余 而 可 人 允许 的 故障 数 百 分 比 为 可 用 总 计算 资源 的 259。 这 意味 着 一 台 主 机 发 生 故 障 ， 集 群 
仍然 能 够 正常 提供 服务 。 要 提高 可 用 性 ， 你 也 可 以 再 额外 添加 一 个 主机 以 实现 n+2 集 群 ， 尽 管 这 并 不 是 客户 对 此 设计 示例 的 要 


预 留 25% 资 源 用 于 
计算 故障 切换 容量 
总 内 存量 : 
256 GB | 比 : 25% 






集群 100% 资 源 (75% 可 用 ) 





cmp- esx-001 cmp- esx-002 cmp-esx-003 cmp-esx-004 


图 7-12 ”基于 百分比 的 准 入 控制 


在 此 设计 示例 范围 内 ， 我 们 会 配置 表 7-3 中 的 vSphere HA 参数 。 如 果 要 对 此 设计 中 定义 的 值 进行 修改 ， 必 须 通过 用 户 盯 组织 
的 变更 管理 流程 框架 进行 批准 。 


表 7-3 vSphere HA 示例 配置 值 


属 性 配 置 
集群 名 称 CMP-01 
ESXi 主机 数量 4 
E 机 监控 启用 
准 入 控制 响应 如 果 虚 拟 机 违反 可 用 性 ， 则 阻止 它们 开局 
企业 一 预 留 资 源 百 分 比 
25% CPU 


准 和 人 控制 策略 25% 内 存 


n+1 (对 于 四 主机 集群 ) 
缺 省 虚拟 机 中 等 (大 多 数 虚 拟 机 ) 


如 果 优 先 级 为 高 ， 则 根据 需要 在 虚拟 机 级 别 修改 (关键 虚拟 机 ) / 


局 优先 级 
里 月 优 先 级 全 用 ( 非 关键 虚 拟 机 ) 


E 机 隐 离 响应 关机 ， 然 后 故障 切换 (Virtual SAN 最 佳 实践 ) 5 
虚拟 机 监控 标 用 

虚拟 机 监控 灵敏 度 中 等 

检测 信号 数据 存储 N/A (有 关 详细 信息 ， 请 参阅 第 4 章 ) 

维护 模式 (Virtual SAN 数据 迁移 ) 确保 可 访问 性 / 完整 数据 迁移 


人 主机 隔离 响应 是 指 ， 当 主机 隔离 时 vSphere HA 所 采取 的 行动 。Vittual SAN 环 境 中 的 最 佳 做 法 与 传统 的 存储 HA 设计 不 同 。 
有 关 主 机 隔离 事件 中 特定 Virtual SAN 主 机 行为 的 信息 ， 请 参阅 第 4 章 。 





2.vSphere 分 布 式 资源 调度 (DRS) 


vSphere DRS 可 根据 预定 义 的 一 组 规则 智能 地 在 虚拟 机 中 分 配 可 用 计算 资源 ， 并 迁移 虚拟 机 以 满足 业务 或 应 用 的 需求 。 使 
用 vSphere DRs 迁 移 规则 还 可 以 隔离 虚拟 机 ， 确 保 主 机 发 生 故 障 或 发 生 隔 离 事 件 时 ， 应 用 或 服务 受到 的 影响 最 小 。 在 此 设计 示 
例 中 ， 我 们 还 会 介绍 一 些 反 关 联 性 规则 。 


vSphere DRS 从 集群 中 的 所 有 主机 和 虚拟 机 收集 资源 使 用 信息 ， 并 通过 vSphere vMotion 实 时 迁移 虚拟 机 ， 以 此 提高 整个 
集群 的 资源 利用 率 。 此 外 ，vSphere DRS 还 会 在 虚拟 机 首次 开启 时 执行 初始 放置 操作 ， 确 保 其 运行 在 最 合适 的 主机 上 。 


尽管 在 未 发 生 资 源 争 用 的 情况 下 不 必 在 云 管 理 集 群 上 配置 vSphere DRS， 但 建议 将 其 作为 平衡 主机 间 负 载 以 实现 最 佳 性 能 
的 方法 ， 特 别 是 在 集群 增长 时 。 


在 较 小 的 集群 中 ， 例 如 此 示例 定义 的 集群 ， 建 议 将 vSphere DRS 迁 移 阅 值 设 置 为 避免 自动 执行 YMotion， 但 这 只 会 在 短期 
内 提高 性 能 。 因 此 ， 对 于 此 集群 ， 在 不 会 发 生 资源 争 用 的 情况 下 ， 建 议 将 此 DRs 迁 移 阔 值 级 别 配置 为 自动 “保守 ”。 


根据 客户 需求 和 设计 因素 ， 此 设计 示例 中 的 vsphere DRs 参 数 配置 如 表 7-4 所 示 。 与 VSphere HA 配置 一 样 ， 应 通过 变更 管 
理 框 架 修改 这 些 设置 。 


表 7-4 vSphere DRS 示 例 配 置 值 


站 于 
集群 名 CMP-01 迁移 国 值 保守 
ESXi 主机 数 VMware DPM 不 支持 


DRS 增强 的 vMotion 兼容 性 启用 


有 


建议 将 服务 器 与 在 应 用 层 具有 宛 余 的 其 他 关键 角色 隔离 ， 以 避免 服务 停机 。 为 此 ， 可 以 在 云 管理 组 件 上 应 用 vsphere DRS 
反 关 联 性 规则 。 这 些 规则 可 指定 虚拟 机 组 之 间 的 关系 ， 使 它们 在 主机 级 别 彼此 隔离 。 这 样 ， 如 果 一 个 vSphere 主 机 出 现 故 障 ， 对 
服务 的 影响 是 有 限 的 ， 甚 至 终端 用 户 根本 感觉 不 到 。 然 而 ， 应 当 谨 慎 地 设计 并 应 用 关联 性 和 反 关 联 性 规则 ， 因 为 它们 增加 了 
vSphere DRS 算 法 的 开销 ， 并 限制 了 虚拟 机 迁移 选项 。 表 7-5 中 列 出 了 此 云 管 平台 集群 示例 上 托管 的 组 件 所 应 用 的 反 关 联 规则 。 





表 7-5 云 管理 集群 应 用 的 反 关 联 规则 


RR 而 
vRealize Automation 设备 始终 隔离 经 过 负载 均衡 的 服 人 
vRealize Automation .NET 组 件 始终 隔离 服务 需 
Active Directory/DNS 服务 需 始终 隔离 Active Directory/DNS 服务 器 
vRealize Log Insight 防止 集群 化 的 Log Insight 应 用 节点 运行 在 同一 主机 上 


始终 隔离 主 节点 和 副本 节点 











vRealize Operations Manager 


7.2.4 网 络 层 设计 

网 络 层 设计 示例 涉及 云 管理 虚拟 机 之 间 在 逻辑 和 物理 网 络 层面 的 所 有 通信 ， 以 及 与 基础 架构 相关 的 平台 交互 ， 如 Virtual 
SAN、vMotion 和 管理 。 与 网 络 相关 的 设计 关键 点 包括 性 能 、 可 用 性 和 安全 性 ， 这 些 都 会 在 此 示例 中 进行 详细 阐述 。 

云 管理 集群 的 网 络 配 置 设计 最 佳 实践 包括 (但 不 限于 ) 如 下 内 容 : 


. 使 用 虚拟 交换 机 端口 组 和 802.1Q VLAN 标 签 进 行 网 络 连接 ， 将 不 同 的 网 络 ; 在 布 不 同 的 VLAN 中 ， 以 解决 安全 性 和 流 
负载 优先 级 的 问题 。ESXi 管 理 、 虚 拟 机 、vMotion 和 Virtual SAN 存 储 流量 都 会 通过 虚拟 交换 机 进行 隔离 和 标记 ， 以 满足 QoS 的 
要 求 。 


| 


: 对 不 需要 在 云 管 平台 外 部 路 由 的 第 2 层 流 量 (如 Vittual SAN 复 制 和 vMotion 流 量 ) 进行 隔离 。 


到 


. 设计 网 络 宛 余 ， 每 台 主 机 服务 器 至 少 配 备 两 个 10GbE 活 动物 理 适 配器 
: 如 果 可 能 ， 在 不 同 的 物理 适配器 之 间 提 供 宛 余 ， 以 防止 主机 PCIe 插 楷 故 障 。 
:将 4 台 ESXi 云 平台 管理 主机 中 的 每 一 台 主 机 配置 在 相同 的 纯 管理 vSphete Distributed Switch (VDS) 上 。 


以 适当 方式 将 物理 网 络 适 配器 卡 连接 到 宛 余 物 理 交 换 机 ， 以 防止 单 适 配器 或 物理 交换 机 故障 。 


1. 管 理 vSphere 虚 拟 交换 机 


设计 云 管 平台 网 络 基础 架构 时 ， 一 个 关键 的 设计 因素 是 : 采用 vSphere 标 准 交换 机 还 是 vSphere Distributed 


Switch (VDS) 。 如 第 4 章 所 述 ，vSphere 标 准 交换 机 的 主要 优点 是 配置 简单 。 但 是 ， 如 果 要 在 设计 上 考虑 Network MO 
Control (NIOC) 、 链 路 聚合 控制 协议 (LACP) 和 NetFlow 等 功能 ， 就 必须 使 用 VDS， 因 为 只 有 VDS 提 供 这 些 功能 。 此 外 ， 如 
果 要 使 用 VMware NSX 提 供 网 络 虚 拟 化 服务 ， 也 只 能 使 用 VDS。 


在 此 示例 中 ， 将 使 用 一 个 网 络 上 行 链 路 为 10Gb/s 的 VDD， 此 配置 可 确保 网 络 上 的 Virtual SAN 复 制 和 同步 活动 获得 正确 的 
优先 级 ， 同 时 ， 还 可 以 在 利用 率 高 峰 期 间 通 过 NIOC 和 QoS 管 理 网 络 资源 争 用 。 


2.Network IlMO Control 配 置 


在 此 示例 中 ， 将 通过 vSphere Distributed Switch (dvSwitch-CMP) 配置 两 个 10Gb/s 上 行 链 路 接口 ， 用 于 承载 每 台 主 机 
的 多 个 流量 。Network MO Control 将 用 于 监控 虚拟 网 络 。 无 论 何 时 ， 只 要 发 现 网 络 拥塞 ， 它 就 会 根据 NIOC 策 略 中 定义 的 份额 
值 ， 自 动 将 此 资源 设置 为 优先 级 最 高 的 流量 类 型 。 


如 图 7-13 所 示 ，4 人 台 管 理 主机 配置 为 一 个 dyUplink 组 ， 其 中 ， 两 个 活动 的 10Gby/s 以 太 网 适配器 通过 专用 的 VDs 来 遍历 流 
量 ,而 此 VDS 配 置 为 传输 所 有 云 管 平台 网 络 流量 。 


Cisco Nexus 5548UP 交 换 机 





Cisco VIC 1340 10 GB 双 端 口 虚拟 以 太 网 适配器 


ESX 管 理 网 络 vMotion 网 络 VSAN 网 络 云 管理 虚拟 机 云 管理 虚拟 机 
端口 组 WE VLAN: 102 VLAN 104 VLAN: 101 DMZ VLAN 105 
100 份 额 250 份 额 500 份 额 150 份 额 150 份 额 
虚拟 分 布 式 交换 机 ( dvSwitch-CMP ) 


[mA 





cmp-esx-001 cmp-esx-002 cmp-esx-003 cmp-esx-004 


图 7-13 ”网 络 I/O 控 制 


连接 到 主机 网 络 适 配器 的 每 个 物理 网 络 交换 机 端口 都 会 配置 为 中 继 端 口 。 图 7-13 还 展示 了 用 于 从 逮 辑 上 按 VLAN 划 分 流量 的 
端口 组 ， 其 中 在 虚拟 交换 机 级 别 应 用 了 VLAN 标 记 。 上 行 链 路 采用 主动 /主动 配置 ， 并 根据 物理 交换 机 的 配置 方式 选择 负载 均衡 
算法 。 无 论 是 虚拟 交换 机 还 是 物理 交换 机 ， 都 会 配置 为 仅 传 输 云 管 平台 使 用 的 VLAN 的 流量 ， 而 不 是 允许 中 继 所 有 VLAN 的 流 


量 。 
表 7-6 展 示 了 云 管 平台 VDS 的 配置 。 


表 7-6 vSphere 分 布 式 交换 机 配置 


基于 源 端 口 ID 路 由 

根据 物理 交换 机 类 型 、 配 置 以 及 对 下 行 链 路 的 802.3ad 支 
持 (静态 或 动态 )， 使 用 适当 的 负载 均衡 策略 配置 管理 主机 
dvSwitch。 有 关 详 细 信 息 ， 请 参阅 第 4 章 


故障 切换 检测 链 路 状态 
通知 交换 机 启用 
故障 恢复 不 启用 
端口 绑 定 静态 


如 下 所 述 ， 两 个 10Gb/s 的 网 络 接口 承载 所 有 已 配置 VLAN 上 的 所 有 输入 和 输出 以 太 网 流量 。 用 户 定义 的 网 络 资 源 应 逐个 端 
口 组 进行 配置 ， 如 表 7-7 所 示 。 





表 7-7 CMP Netwotk I/O Conttol 策 略 示例 


端口 组 | VIANID | 广播 域 | 份额 数量 功能 描述 
on Moen VM 0 | 172.16.101.0/24 管理 虚拟 机 流量 
VMotion Network 172.16.102.0/24 


ESX Manag 1 
人 172.16.103.0/24 100 
Network 

| 


VSAN Network ESXi VMware 存 储 Virtual 
TSAN Network 
SAN 流量 (未 路 由 ) 


Cloud-Memt-VM- 二 De 
和 172.16.105.0/24 管理 DMZ 虚拟 机 流量 
DMZ 


此 外 ， 如 表 7-7 中 所 示 ， 某 一 适用 QoS (802.1P) 标签 也 会 与 所 有 传 出 数据 包 相 关联 ， 从 而 使 兼容 上 行 交换 机 能 够 识别 和 应 
用 QoS 配 置 。 


172.16.104.0/24 


医大 ESXi 管理 流量 


示 签 
py 
3 第 2 层 vMotion 流量 (未 路 由 ) 
1 
yy 
2 


101 
103 
104 
105 





采用 这 种 方式 设计 VDS 并 将 vMotion、 虚 拟 机 和 Virtual SAN 流 量 分 割 成 单独 的 VLAN 端 口 组 ， 同 时 使 用 份额 和 QoS 机 制 |， 
可 以 保证 每 种 流量 类 型 持续 保持 所 需 的 性 能 水 平 ， 即 使 发 生 网 络 资源 争 用 也 不 例外 。 


3.Virtual SAN VMkernel 端 口 


要 连接 到 共享 的 Virtual SAN 数 据 存储 ， 每 台 云 管理 主机 都 要 配置 专用 的 VMkernel 端 口 。VMkernel 端 口 将 配置 在 专用 的 
Virtual SAN 端 口 组 中 ， 并 用 于 将 流量 传输 到 存储 内 核 。 在 此 设计 示例 中 ，Virtual SAN 流 量 将 仪 遍历 指定 的 第 2 层 网 段 ， 而 不 会 
传输 到 云 管 平台 外 部 。 


4 .巨型 帧 


Virtual SAN 端 口 组 会 配置 为 使 用 巨型 帆 ， 这 些 帧 将 在 整个 Virtual SAN 平 台中 进行 端 到 端 传输 。 由 于 Virtual SAN 流 量 仅 在 
指定 的 第 2 层 网 段 传输 ， 不 会 路 由 到 专用 云 管 平台 交换 机 之 外 ， 因 此 只 需 在 云 管 平台 网 络 内 部 为 这 种 流量 配置 即 可 。 


5.Virtual SAN 组 播 


Virtual SAN 流 量 专用 的 Virtual SAN VLAN 将 在 其 第 2 层 网 段 中 启用 组 播 。 此 配置 将 作为 Virtual SAN VLAN 组 播 策略 的 一 
部 分 应 用 于 Cisco Nexus 5548UP 交 换 机 ， 并 启用 IGMP 侦 听 。 


6 .物理 交换 机 配置 概述 


云 管 平台 物理 网 络 设计 采用 一 对 专用 的 Cisco Nexus 5548UP 交 换 机 来 隔离 特定 流量 ， 使 其 仪 在 云 管 平台 环境 内 部 传输 。 
Cisco Nexus 5548UP 交 换 机 要 求 安装 并 正确 配置 可 选 的 第 3 层 子 板 。 图 7-14 简 要 展示 了 云 管 平台 环境 通过 北向 聚合 层 网 络 与 生 
产 系 统 进行 的 上 游 连 接 。 


7.2.5 ”存储 层 设计 


四 节点 云 管理 集群 必须 配置 共享 存储 来 使 用 vSphere 的 vMotion 和 高 可 用 性 功能 。 使 用 Virtual SAN 作 为 云 管 平台 的 共享 存 
储 ， 不 会 对 主 生 产 存 储 系统 造成 任何 依赖 。 在 此 示例 中 ， 主 生产 存储 系统 由 启用 了 Virtual Volumes 的 EMC VMAX3400K 系 统 提 
供 。 


过 去 ， 为 纯 管理 集群 提供 专用 带 外 存储 的 成 本 非常 高 晶 。 因 为 ， 通 常情 况 下 ， 人 往往 需要 为 管理 平台 购置 额外 的 独立 存储 阵 
列 ， 为 MO 密集 型 和 高 可 用 虚拟 机 提供 性 能 和 可 用 性 保障 。 此 外 ， 可 能 还 需要 置 备 一 个 独立 的 存储 架构 ， 因 此 也 会 进一步 增加 成 
本 。 然 而 ， 使 用 Virtual SAN， 人 存储 成 本 可 以 大 大 降低 ， 从 而 使 这 种 专用 带 外 管理 环境 成 为 大 多 数 大 中 型 组 织 切 实 可 行 且 经 济 实 
惠 的 选择 。 


在 此 设计 示例 中 ， 云 管 平台 使 用 Virtual SAN 6.2 混 合 配置 ， 为 专用 管理 基础 架构 提供 真正 的 带 外 存储 。 此 配置 可 为 该 平台 
提供 以 下 主要 设计 优势 : 


` 系统 本 身 具有 容错 性 且 基 于 分 布 式 RAIN 架 构 ， 不 存在 单 点 故障 ， 并 且 故 障 恢 复 不 会 造成 停机 。 
" 整个 系统 与 VCenter Server 紧 密集 成 ， 并 支持 自动 化 。 

" 集群 中 所 有 vSphetre 主 机 的 本 地 存储 共同 构成 分 布 式 Virtual SAN 数 据 存储 。 

Virtual SAN 针 对 闪存 设备 进行 了 优化 ， 其 唯一 目的 是 使 用 SSD 实 现 I/O 加 速 。 


“ Virtual SAN 的 设计 原则 : 以 虚拟 机 为 中 心 执 行 操作 ， 通 过 策略 进行 管理 。 





Virtual SAN 平 台 与 VSphere、vCenter Server Web Client 以 及 vRealize 应 用 套件 完全 集成 。 
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图 7-14 ”物理 网 络 概要 设计 
除了 这 些 功 能 之 外 ， 此 设计 示例 还 会 将 如 下 Virtual SAN 最 佳 实践 应 用 于 云 管 平台 架构 : 
` 使 用 四 节点 集群 ， 并 且 所 有 节点 都 提供 存储 ， 而 不 是 使 用 三 节点 最 低 配置 。 
* 集群 的 所 有 存储 保持 均衡 ， 整 个 平台 使 用 相同 的 主机 配置 。 


“ 在 所 有 主机 上 使 用 完 余 的 RAID 1SD 卡 作为 引导 设备 ， 并 启用 远程 日 志 记 录 。 


1. 存 储 设计 规范 


本 节 介绍 云 管 平台 集群 的 存储 规范 。 虚 拟 机 大 小 和 存储 策略 配置 的 值 均 为 假设 值 。 表 7-8 提 供 了 源 指标 ， 可 以 使 用 这 些 指标 
在 此 设计 示例 中 进行 数据 存储 大 小 估算 。 


表 7-8 云 管 平台 虚拟 机 需求 




















变 量 值 
虚拟 机 数量 估算 40 
每 个 虚拟 机 的 平均 磁盘 大 小 120GB ( 约 消耗 6096 ) 
每 个 虚拟 机 的 平均 内 存 大 小 6GB 
最 大 容错 能 力 1 


管理 虚拟 机 存储 需求 计算 : 假定 允许 的 故障 数 为 1，Virtual SAN 数 据 存储 的 原始 存储 需求 不 超过 12TB ( (40x120GB) + 
(40x6GB) ) +20%= (4800GB+ 240GB+ 1008) = 6048GB ( (虚拟 机 数量 x 平均 大 小 ) + (虚拟 机 数量 x 平 均 内 存 ) ) + 
增长 


2. 集 群 架构 


如 上 述 公式 所 示 ， 设 计 12TB 的 可 用 存储 容量 ， 可 满足 云 管理 虚拟 机 的 初始 存储 需求 。 云 管理 集群 中 的 主机 只 能 访问 单个 
Virtual SAN 数 据 存 储 ; 为 了 确保 它 始终 为 全 带 外 配置 ， 不 会 提供 任何 外 部 存储 。 


图 7-15 简 要 展示 了 此 设计 示例 的 逻辑 存储 配置 。 


为 了 满足 最 低 存 储 要 求 ， 此 设计 采用 4 台 相 同 的 Cisco UCS C240 M3 机 架 式 服务 器 。 所 选 主机 服务 器 在 每 个 机 架 式 机 箱 中 配 
有 24 个 2.5 英 十 小 尺寸 (SFF) 驱动 器 。 通 过 这 一 24 驱 动 器 机 箱 ， 可 以 在 每 台 主机 中 至 少 创建 3 个 完全 填充 的 Virtual SAN 磁 盘 组 
(7+1) ， 可 满足 未 来 磁盘 增长 和 容量 扩展 的 需求 。 此 外 ， 为 确保 这 24 个 磁盘 插 模 均 可 由 Virtual SAN 使 用 ， 此 设计 会 指定 一 个 
工业 级 SD 卡 设备 ， 用 于 安装 ESXi 庶 拟 化 层 (采用 RAID 1 宛 余 配置 ， 可 由 所 选 硬件 支持 ) 。 


为 了 满足 12TB 可 用 数据 存储 容量 的 要 求 ，Virtual SAN 磁 盘 组 最 初 由 7 个 900GB 10k SAs 驱 动 器 组 成 ， 如 图 7-16 所 示 。 在 混 
合 模式 下 ， 用 于 Virtual SAN 读 取 缓 存 和 写 入 缓冲 机 制 的 闪存 设备 为 400GB SAS SSD 驱 动 器 。 根 据 VMware 的 建议 ， 在 考虑 FTT 
之 前 ,闪存 容量 至 少 应 为 预计 所 用 存储 容量 的 10%， 因 此 闪存 层 选 择 400GB SSD。 


全 注意 在 此 设计 中 ，ESXi 安 装 在 宛 余 SD 卡 上 ， 因 此 不 允许 在 初始 设置 过 程 中 创建 临时 分 区 。 在 部 署 中 ， 请 在 每 台 主 机 的 
共享 数据 存储 上 配置 一 个 本 地 .locket 目 录 ， 作 为 临时 分 区 。 另 外 ， 请 确保 配置 每 台 主 机 ， 以 便 通 过 日 志 记 录 在 远程 syslog 系 统 
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图 7-15 Virtual SAN 存 储 配置 
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图 7-16 ”Virtual SAN 混 合 磁 胡 配 置 


3. 存 储 控制 器 
VMware Virtual SAN 支 持 两 种 模式 的 存储 控制 器 : 
- 直通 (或 JBOD) 模式 
RAID 0 模式 


选择 VMware Virtual SAN 存 储 控制 器 时 ， 重 要 的 考虑 因素 是 该 设备 支持 直通 模式 、RAID 0 模式 还 是 同时 支持 这 两 者 。 此 
示例 所 选 的 Cisco 设 备 ， 可 以 同时 支持 这 两 种 模式 ， 如 “VMware Virtual SAN 硬 件 兼容 性 指南 ”列表 所 示 。 


如 果 Virtual SAN 使 用 直通 控制 器 ， 则 它 可 以 直接 访问 磁盘 驱动 器 ， 不 需要 配置 RAID。 如 果 Virtual SAN 使 用 不 支持 直通 模 
式 的 控制 器 ， 则 必须 为 Virtual SAN 要 使 用 的 每 个 物理 磁盘 创建 一 个 虚拟 RAID 0 驱动 器 。 


因此 ， 此 设计 将 使 用 Cisco UCS-RAID-9300-8i 12G SAS HBA 直 通 模式 ， 以 便 可 以 直接 连接 到 主机 中 的 所 有 磁盘 驱动 器 。 


之 所 以 选择 该 控制 器 ， 正 是 因为 它 支 持 真正 的 直通 模式 ， 可 将 驱动 器 直接 提供 给 虚拟 化 层 ， 以 供 Virtual SAN 使 用 。 此 外 ， 与 其 
他 控制 器 相 比 ， 由 于 该 控制 器 的 队列 深度 为 1024， 因 此 性 能 更 高 。 


此 设计 要 求 在 四 节点 云 管理 集群 中 至 少 配置 12TB 可 用 存储 空间 。 根 据 此 设计 要 求 ， 计 算 如 下 。 


原始 集群 容量 : 


a 


主机 数 X 每 个 主机 的 磁盘 组 数量 X 每 个 磁盘 组 的 磁盘 数量 X 磁 盘 大 小 二 原始 集群 容量 

管理 设计 公式 : 4X1X7X900GB 王 25200GB 

根据 此 公式 ， 此 设计 示例 所 规划 的 VSAN 就 绪 节 点 集群 配置 可 提供 充足 的 可 用 容量 来 满足 客户 的 需求 。 
5. 存 储 策略 配置 


Virtual SAN 采 用 SPBM 框 架 ， 通 过 存储 策略 来 保证 虚拟 机 可 根据 为 其 分 配 的 策略 访问 适当 的 存储 资源 。 管 理 员 可 以 为 每 台 
虚拟 机 定义 负载 可 从 策略 驱动 型 控制 平面 获得 的 功能 类 型 。 主 机 会 强制 实施 这 些 策略 ， 以 确保 虚拟 机 可 以 完全 获得 管理 员 定义 的 
功能 。 


最 好 根据 性 能 、 容 量 和 可 用 性 方面 的 业务 需求 来 创建 存储 策略 。 此 示例 使 用 了 两 个 策略 来 满足 所 有 云 管理 组 件 负 载 的 需求 。 
这 两 个 策略 可 满足 目标 管理 组 件 的 性 能 、 容 量 和 可 用 性 需求 。 有 关 SPBM 的 更 多 信息 ， 请 参阅 第 4 章 。 


对 于 此 设计 示例 ， 环 境 中 运行 的 所 有 虚拟 机 都 具有 类 似 的 需求 。 因 此 ， 在 最 初 实施 时 ， 仪 使 用 两 个 仓储 策略 : 一 个 基于 性 能 
的 规范 和 一 个 基于 可 用 性 的 规范 ， 如 表 7-9 所 示 。 


应 该 以 这 两 个 存储 策略 为 起 点 来 满足 此 设计 示例 的 初始 需求 。 但 是 ， 在 Virtual SAN 环 境 的 整个 生命 周期 中 ， 可 能 需要 采用 
更 精细 的 方法 。 例 如 ， 可 能 还 需要 考虑 其 他 虚拟 机 需求 ， 如 存储 读 取 、 写 入 、 服 务 质 量 、 可 处 理性 、 元 余 性 和 性 能 ， 从 而 创建 更 
精细 的 策略 ， 这 些 策略 可 能 基于 性 能 ， 可 能 基于 容量 ， 也 可 能 基于 存储 平衡 。 


表 7-9 存储 策略 规范 设计 示例 


策 略 基于 性 能 的 规范 基于 可 用 性 的 规范 
闪存 读 取 缓存 预 留 0% 0% 


I I 
强制 置 备 启用 启用 


对 象 空间 预 留 0% 0% 


6. 在 Virtual SAN 数 据 存 储 上 安装 vCenter Server 


此 用 例 的 独特 挑战 是 ， 需 要 将 vCenter Server 虚 拟 机 安装 在 管理 集群 Virtual SAN 数 据 存储 上 。 但 是 ， 这 样 会 使 人 左右 为 
难 。 此 用 例 的 目标 是 将 vCenter Server 安 装 在 Virtual SAN 分 布 式 数据 存储 中 的 虚拟 机 上 。 但 是 ， 你 首先 需要 使 用 Virtual SAN 数 
据 存 储 来 构建 虚拟 机 ， 然 后 才能 安装 vCenter Server 组 件 。 但 是 ， 如 果 未 部 署 vCenter Server， 如 何 部 署 Virtual SAN 集 群 并 配 


第 1 个 方法 : 在 环境 中 使 用 备用 主机 ， 准 备 足够 的 本 地 存储 空间 来 部 署 和 配置 vCenter Server 虚 拟 机 以 及 其 他 所 有 必需 的 管 
理 组 件 。 为 此 ， 可 使 用 传统 的 vSphere C# 客 户 端 并 直接 连接 到 主机 ， 或 者 使 用 ESXi 谋 入 式 主机 客户 端 。 在 备用 主机 上 部 署 
vCenter Server 后 ， 可 以 使 用 它 在 云 管 理 集群 中 部 署 和 配置 Virtual SAN 分 布 式 数 据 存 储 。 在 将 vCenter Server 从 临时 主机 的 本 
地 数据 存储 迁移 到 Virtual SAN 分 布 式 数据 存储 后 ， 可 以 删除 并 停 用 该 临时 主机 ， 或 者 重新 配置 该 主机 以 加 入 Virtual SAN 集 群 。 
举例 来 说 ， 如 此 设计 示例 所 示 ，Virtual SAN 集 群 最 初 只 配置 3 台 主 机 ， 最 后 一 台 主 机 将 在 迁移 VCenter 之 后 添加 ， 如 图 7-17 所 


J\o 


第 二 个 方法 ( 称 为 引导 ) : 利用 ESXCLI 在 单个 节点 上 配置 Virtual SAN 数 据 存储 ， 如 图 7-18 所 示 。 然 后 使 用 传统 vSphere 
C# 客 户 端 并 直接 连接 到 主机 或 使 用 ESXi 瞩 入 式 主 机 客户 端 ， 在 该 主机 的 Virtual SAN 数 据 存储 上 安装 和 配置 vCenter Server 虚 拟 
机 和 其 他 必需 的 管理 组 件 。 通 过 这 些 主机 连接 ， 你 可 以 查看 但 不 能 管理 在 单 台 主机 上 配置 的 Virtual SAN 数 据 存储 。 最 后 ， 向 集 
群 中 添加 其 余 的 主机 。 
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图 7-17 vCenter Setvet 迁 移 选 项 
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图 7-18 vCenter Setvet 引 导 选 项 


要 执行 vCenter Server 的 引导 安装 ， 必 须 首先 修改 缺 省 存储 策略 ， 使 管理 员 能 够 绕 过 通常 用 于 控制 Virtual SAN 数 据 存储 上 


虚拟 机 部 署 的 可 用 性 规则 。 
以 下 部 分 介绍 了 为 使 Virtual SAN 集 群 正 常 运行 而 对 vCenter 和 其 他 必需 管理 组 件 进行 引导 部 署 的 过 程 。 


可 以 根据 “vSphere 安 装 和 配置 指南 ”中 的 说 明 ， 按 通常 方式 将 ESXi 部 署 到 本 地 安装 的 SD/USB 设 备 上 。 该 主机 将 用 作 独 立 
的 Virtual SAN 节 点 。 然 后 ， 请 执行 如 下 步骤 : 


1) 运行 以 下 两 个 命令 ， 将 所 示 对 象 的 缺 省 Virtual SAN 强 制 置 备 存 储 策略 从 “禁用 ”更 改 为 “启用 ”。 


esxcli vsan policy setdefault -c vdisk -p "((\"hostFailuresToTolerate\" 1i1) 
(\"forceProvisioning\" 11))" 

esxcli vsan policy setdefault -c vmnamespace -p "((\"hostFailuresToTolerate\" 1i1) 
(\"forceProvisioning\" 11))" 


2) 执行 以 下 命令 ,确认 已 将 Virtual SAN 缺 省 存储 策略 从 “禁用 ”更 改 为 “启用 ”: 


esxcli vsan policy getdefault 


原始 缺 省 策略 : 


~ esxcli vsan policy getdefault 
Policy Class Policy Value 


Tolerate" i 
Olerate™ i 


("forceProvisioning"”" i1)) 





修改 后 的 缺 省 策略 : 


~ 者 esxcli v3san policy getdefault 
Policy Class Policy Value 


nphostEazluresSTOTO1LEeFratenm 1I1) ) 


( ("hostFailuresToTolerate"™" i1) 


nphostEazlLureSsSTOTO1LEIatEn 
mhostEailure3sSTOoTO1Leratenmn II1) 





3) 确定 单 台 主机 中 的 哪些 磁盘 将 用 于 配置 Virtual SAN 数 据 存储 的 初始 磁盘 组 。 请 使 用 以 下 命令 确定 所 需 的 磁盘 : 
esxcli storage core device List 


要 进一步 确认 哪些 标识 符 指 的 是 SSD 或 机 械 磁 盘 ， 请 按 如 下 所 示 扩 展 此 命令 ， 然 后 记 下 你 要 使 用 的 磁盘 的 UID: 


esxcli storage core device list -d <disk ID> 


J EUs 

Offline: false 
Is Perennially Reserved: false 
QUeue Full Sample Size: 0 
Queue Full Threshold: 


Thin Provisioning Status: Dunknown 
Attached Filters: 

VAAI Status: unsupported 

Other UIDs: vml .0000000000766d686261313a3 





4) 配置 Virtual SAN 集 群 ， 并 为 其 提供 一 个 UUID， 此 UUID 可 从 www.uuidgenerator.net 之 类 的 站 点 获取 。 例 如 ， 要 创建 
UUID 为 1b86d43c-6520-11e4-b116-123b93f75cba 的 Virtual SAN 集 群 ， 请 使 用 以 下 命令 : 


esxcli vsan cluster join -u 1b86d43c-6520-11e4-b116-123b93f75cba 


5) 执行 以 下 命令 ， 查 看 有 关 新 创建 的 Virtual SAN 集 群 的 信息 : 


esxcli vsan cluster get 


~ # esxcli Vsan cluster get 
Cluster Information 
Enabled: true 
Current Local Time: 2014-11-05T03:09:052 
Local Node UUID: 5399f376-7db4-9261-1ibde-000c2991b581 
Local Nodae State: MRSTER 
Local Node Health State: HERALTHY 
Sub-Cluster Master UUID: 5399f376-7dqdb4-9261-1bade-000c2991b581 


Sub-Cluster Backup UUID: 
Sub-Cluster UUID: 1b86d43c-6520-11e4-b116-123b93f75cba 


Sub-Cluster Membership Entry Revision: 0 
Sub-Cluster Member UUIDs: 5399f376-7Gqb4-9261-1bde-000c2991b581 
Sub-Cluster Membership UUID: Lb4945954-£f824-b5e5-ecba-000c2991b581 


L。 医 | | 





6) 将 前 面 记 下 的 SSD 和 机 械 磁 盘 添加 到 新 的 Virtual SAN 集 群 中 。-s 选 项 用 于 标识 SSD 磁 盘 ，-d 选 项 用 于 标识 所 有 机 械 磁 
盘 。 以 下 示例 配置 了 3 个 机 械 磁 盘 (HDD) 以 及 所 需 的 内 存 SSD 磁 盘 : 


esxcli vsan cluster add -d <HDD 1 ID> -d <HDD 2 ID> -d <HDD 3 ID> -s <SSD ID> 
7) 添加 磁盘 后 ， 可 以 执行 以 下 命令 以 查看 加 入 Virtual SAN 的 磁盘 : 


esxcli1 vsan storage list 
你 也 可 以 通过 直接 连接 使 用 传统 Windows C# 客 户 端 或 使 用 具有 root 凭 据 的 ESXi 谨 入 式 主 机 客户 端 登录 到 主机 ， 来 验证 独立 
主机 上 创建 Virtual SAN 数 据 存储 的 情况 。 你 可 以 查看 已 挂 载 在 独立 ESXi 主 机 上 的 Virtual SAN 数 据 存 储 。 


在 独立 Virtual SAN 主 机 上 安装 完 vCenter Server、 数 据 库 和 其 他 关键 组 件 后 ， 可 以 使 用 vSphere Web Client 向 vCenter 
Server 添 加 初始 主机 和 其 余 主 机 。 其 他 未 执行 的 vSphere Web Client 任 务 包括 配置 Virtual SAN VMkernel 接 口 并 将 适当 的 存储 
策略 附加 到 管理 组 件 虚拟 机 。 此 外 ， 请 记 住 将 缺 省 强制 置 备 存储 策略 还 原 为 “禁用 ”。 


在 具有 vCenter Server 的 环境 中 ， 如 果 要 创建 一 个 新 的 管理 集群 ， 只 需 使 用 标准 操作 流程 将 vCenter 组 件 迁 移 到 新 的 Virtual 


SAN 数 据 人 存储 即 可 。 


7.2.6 云 管 平台 安全 设计 
与 任何 新 的 !T 实 施 方案 一 样 ， 安 全 至 关 重 要 。 新 的 vSphere 云 管 平台 如 果 存 在 任何 安全 漏洞 或 风险 ， 可 能 会 严重 影响 系统 的 
可 用 性 。 本 节 概 括 介 绍 了 此 设计 示例 所 采用 的 安全 和 操作 方法 ， 实 施 阶段 应 始终 应 用 于 整个 环境 。 


任何 云 服务 都 不 允许 用 户 直 接 访问 vSphere 基 础 架构 。 用 户 可 使 用 云 平台 应 用 接口 连接 到 服务 。 在 可 能 的 情况 下 ， 可 使 用 
Microsoft Active Directory 或 其 他 目录 服务 来 管理 访问 权限 。 只 有 在 需要 执行 经 过 授权 的 特定 作业 功能 时 ， 才 会 授予 访问 权 
限 。 


专用 云 管 平台 应 遵循 以 下 安全 要 点 : 


* 管理 组 件 应 发 出 横幅 消息 ， 将 监控 行为 、 隐 私 泄 露 行为 以 及 因 恶 意 或 破坏 行为 〈 无 论 意图 如 何 ) 而 应 承担 的 民事 和 刑事 责 
任 告知 用 户 。 


: 应 移 除 云 平 台 管 理 组 件 中 的 缺 省 账户 或 众所周知 的 账户 ， 因 为 这 些 账 户 更 容易 被 攻击 者 用 来 破解 该 设备 。 
. 云 管理 组 件 需 配置 复杂 的 密码 ， 防 止 攻击 者 破译 密码 并 进行 未 经 授权 的 访问 。 

* 云 平台 管理 端口 应 配置 相对 较 短 的 连接 超时 时 间 ， 尽 量 减 少 会 话 被 劫持 的 风险 。 

* 应 在 托管 云 平台 应 用 的 系统 上 应 用 防 病毒 程序 、 备 份 和 常规 补丁 。 


云 管理 组 件数 据 库 应 受到 较 高 级 别 的 保护 。vSphere 和 云 平 台数 据 库 用 于 存放 系统 配置 、 历 史记 录 、 性 能 统计 数据 、 权 限 
和 角色 等 信息 ， 如 发 生 泄露 ， 攻 击 者 可 以 获得 大 量 有 用 的 信息 。 


1. 云 管理 虚拟 机 安全 


为 了 保护 云 管理 组 件 虚拟 机 免 受 未 经 授权 的 访问 或 恶意 攻击 ， 必 须 设 置 一 个 安全 基线 来 强化 配置 。 表 7-10 列 出 了 要 为 云 管 
平台 上 每 台 管理 虚拟 机 配置 的 一 些 强化 参数 。 


这 些 标准 提供 了 一 个 基线 ， 但 并 不 全 面 ， 需 要 根据 组 织 特定 的 内 部 流程 进行 修改 。 例 如 ， 对 于 政府 认证 和 资格 鉴定 计划 ， 企 
业 或 IT 组 织 需要 证 明 新 环境 已 经 对 负载 和 支持 负载 的 基础 架构 实施 了 适当 的 风险 管理 方法 。 


全 注意 有 关 vSphere 硬 件 的 更 多 指导 ， 请 参阅 公开 发 布 的 “VMware 强 化 指南 ”， 该 指南 为 在 安全 环境 下 部 署 和 操作 产品 提 
供 了 详细 的 指导 。 


表 7-10 ” 云 平 台 虚 拟 机 安全 基线 


配 置 


防止 虚拟 磁盘 缩减 


缺 省 情况 下 ， 虚 拟 机 中 的 管理 和 非 管理 用 户 可 以 对 虚拟 磁盘 进行 缩减 。 如 果 
重复 执行 该 操作 ， 可 能 会 发 生 拒绝 服务 ， 因 为 可 能 会 导致 磁盘 在 缩减 时 不 可 用 
请 对 虚拟 磁盘 缩减 操作 进行 限制 ， 以 减轻 此 配置 固有 的 风险 和 漏洞 

1solation.tools.disk Wiper.disable=TRUE 

isolation.tools.diskShrink.disable=TRUE 





确保 未 经 授权 的 设备 未 连 


接 到 虚拟 机 


防止 未 经 授权 移 除 、 连 接 


次 


和 修改 设备 


2. 系 统 日 志 记 录 


虚拟 机 提供 了 串 行 和 并 行 端口 、CD/DVD 驱动 器 和 USB 端口 等 虚拟 设备 。 但 
这 些 设备 很 少 使 用 

如 果 启 用 了 诸如 此 类 虚拟 设备 ， 可 能 会 更 容易 受到 攻击 ， 应 尽 可 能 加 以 保护 
因此 ， 此 设计 示例 旨 在 确保 夫 使 用 目的 虚拟 设备 被 禁用 ， 以 消除 潜在 的 攻击 风险 

floppyX.present=FALSE 

serialX.present=FALSE 

parallelX .present=FALSE 

usb.present=FALSE 

1deX:Y.present=FALSE 


虚拟 机 中 的 非 管 理 用 户 可 以 连接 和 /或 断 开设 备 ， 例如 CD-ROM 驱动 如 和 网 
络 适 配器 。 此 外 ， 还 可 以 修改 设备 设置 和 配置 。 例 如 ， 非 管理 用 户 可 以 重新 连接 
已 断 开 的 CD-ROM 驱动 需 并 访问 在 其 中 挂 载 的 信息 ， 或 者 也 可 以 断 开 连接 并 更 
改 网 络 适 配器 设置 ， 并 中 断 虚 拟 机 的 服务 

因此 ， 此 设计 示例 将 确保 此 功能 被 禁用 ， 以 消除 这 些 潜 在 的 攻击 风险 

isolation.device.connectable.disable=TRUE 

isolation.device.edit.disable=TRUE 


系统 消息 日 志 记录 功能 会 配置 为 将 syslog 消 息 保存 到 vRealize Log Insight 提 供 的 外 部 syslog 设 备 中 。 建 议 所 有 硬件 (包括 
vSphere 主 机 、UCS 服 务 器 和 网 络 组 件 ) 都 将 日 志 记 录 功 能 配置 为 保存 到 syslog 服 务 器 中 。 此 外 ， 为 了 准确 地 配置 系统 日 志 ，3 
烈 建议 在 整个 基础 架构 中 使 用 一 致 的 网 络 时 间 协 议 (NTP) 配置 。 这 样 ， 环 境 中 每 个 组 件 的 所 有 时 钟 都 会 保持 同步 ， 从 而 简化 协 
日 志 、 执 行 调试 和 跟踪 信息 的 工作 。 


3. 计 算 和 存储 层 安 全 强化 


计算 和 存储 层 强化 符合 所 有 Cisco C240 M3 服 务 器 的 安全 标准 。 为 了 提供 基线 级 安全 性 ，VSAN 就 绪 计算 和 存储 硬件 堆栈 将 
在 实施 阶段 采用 表 7-11 所 示 的 配置 。 


表 7-11 Cisco C 系 列强 化 基线 





配 置 描 述 
日 志 不 集中 管理 ， 可 能 会 错过 与 操作 或 安全 相关 的 警报 和 事件 。 集 中 管理 日 志 可 


集 中 式 日 志 记 录 


以 提高 管理 和 安全 问题 调查 能 力 通过 本 置 主 机 服务 需 硬件 以 使 ) 昌 集 中 式 日志 记录 
服务 器 ， 可 以 查看 总 体 分 析 和 搜索 结果 ， 从 而 清楚 地 了 解 影响 多 个 主机 的 事件 





启用 NTP 


更 改 缺 省 Cisco IMC 密码 


启用 IP 阻 止 


4. 网 络 层 强 化 


不 使 用 集中 式 NTP 源 ， 则 难以 对 日 志 进 行 关联 和 审核 ， 并 且 关 联 和 审核 结果 将 
不 准确 。 此 设计 中 的 所 有 系统 都 配置 为 使 用 相同 的 NTP 源 

Cisco 集成 式 管理 控制 器 (IMC) 提供 了 一 个 管理 Cisco UCS 机 架 式 服务 器 的 接 
口 。 此 密码 为 本 地 密码 ， 建 议 更 改 ， 以 防 猜测 或 破解 凭据 的 风险 

不 启用 阻止 将 面临 风险 ,攻击 者 可 能 会 无 限 次 尝试 猜测 密码 或 执行 暴力 攻击 ， 
取得 访问 IMC WebGUI 界面 的 权限 


为 了 对 CMP 环 境 的 网 络 访问 层 配 置 安全 基线 ， 此 设计 示例 将 为 Cisco Nexus 5548UP 设 备 配置 更 强 的 安全 强化 ， 如 表 7-12 
所 示 。 


表 7-12 ”Cisco Nexus 5548UP 强 化 基线 


配 置 描 述 
日 志 不 集中 管理 ， 可 能 会 错过 与 操作 或 安全 相关 的 警报 和 事件 。 集 中 管理 日 志 可 以 提高 
配置 远程 syslog 管理 和 安全 问题 调查 能 力 。 通 过 配置 网 络 设备 以 使 用 集中 式 日 志 记 录 服 务 需 ， 可 以 查看 总 
体 分 析 和 搜索 结果 ， 从 而 清楚 地 了 解 影响 多 个 平台 组 件 的 事件 

密码 必须 具有 足够 的 长 度 并 满足 复杂 性 要 求 ， 不 仅 要 满足 策略 和 法 规 要求 ， 还 要 降低 赁 
据 被 猜测 或 破解 的 风险 

横幅 消息 用 于 通知 使 用 设备 的 人 员 ， 需 要 授权 以 及 活动 被 监控 。 如 果 不 使 用 明确 的 横幅 
使 用 横幅 消息 消息 将 监控 行为 以 及 隐私 泄漏 行为 告知 用 户 ， 则 对 攻击 者 采取 合法 措施 加 以 制止 的 操作 将 
受到 影响 

SSH 专用 于 通过 安全 、 加 密 通 道 与 远程 终端 进行 通信 。 如 果 不 使 用 SSH， 则 建立 的 会 话 
将 不 安全 ,并且 敏感 信息 可 能 会 被 暴露 和 泄 圳 

所 有 系统 都 应 配置 为 使 用 相同 的 时 间 源 。 不 使 用 一 致 的 集中 式 时 间 源 ， 则 难以 对 日 志 进 
行 关联 和 和 审核， 并 且 关 联 和 和 审核 结果 将 不 准确 

合法 主机 的 IP 地 址 可 能 会 被 假冒 来 模拟 该 主机 ， 而 IP 源 保 护 可 在 第 2 层 端 口上 进行 源 
IP 地 址 筛选 





确保 使 用 强 密码 


启用 SSH 





配置 NTP 


启用 IP 源 保护 





5. 变 更 和 配置 管理 


维护 任何 计算 机 系统 时 ， 变 更 和 配置 管理 过 程 都 是 非常 重要 的 。 任 何 可 能 影响 SLA 的 内 容 都 属于 变更 和 配置 管理 的 范围 。 以 
下 内 容 应 予以 记录 ， 用 于 日 常 维护 、 支 持 和 管理 云 管 平台 基础 架构 : 


` 能 够 批准 组 件 变更 的 人 员 名 单 

" 共享 系统 的 业务 决策 者 名 单 

对 所 有 配置 变更 的 审批 

' 缺 省 组 件 设置 和 其 他 组 件 设置 
从 监控 配置 变化 中 获得 的 信息 


.定期 备份 所 有 配置 的 设置 步骤 


6 .管理 补丁 和 更 新 实践 


按 计划 安装 或 应 急 安 装 补丁 或 更 新 可 以 保护 系统 免 受 安全 漏洞 的 影响 ， 保 障 系统 性 能 的 稳定 性 。 应 根据 组 织 内 部 策略 和 
VMware 建 议 来 维护 vSphere 组 件 ， 并 为 设备 安装 补丁 和 更 新 。 要 制定 安装 补丁 和 更 新 的 计划 ， 请 执行 以 下 操作 : 


' 记录 环境 中 每 个 硬件 和 软件 组 件 的 版 本 。 
记录 未 及 时 安装 或 推迟 安装 补丁 所 面临 的 风险 。 
“ 寻找 方法 来 降低 无 法 安装 补丁 时 所 面临 的 风险 。 


- 遵循 变更 管理 流程 进行 文档 记录 和 内 部 审批 。 


:为 高 优先 级 和 低 优 先 级 补丁 制定 定期 安装 补丁 的 时 间 〈 例 如 每 周 和 每 月 ) 。 

* 制定 和 测试 计划 外 应 急 安 装 补丁 的 流程 。 

“ 如 果 从 按 计划 安装 补丁 之 日 之 前 的 快照 还 原 了 虚拟 机 ， 请 重新 为 该 虚拟 机 安装 补丁 。 
此 外 ， 下 面 还 列 出 了 企业 IT 组 织 或 服务 提供 商 的 云 管 平台 应 遵循 的 一 些 基本 操作 安全 要 求 : 
* 确保 系统 已 使 用 所 有 必需 的 补丁 和 服务 包 进 行 更 新 。 

: 实施 标准 的 Windows 系 统 防 护 措施 ， 如 防 病 毒 软件 。 

. 限制 可 以 访问 系统 的 用 户 数量 。 


* 仅 为 允许 的 用 户 授予 其 职位 所 需 的 权限 。 





: 监控 Mictosoft Windows 事 件 日 志 。 


使 用 Microsoft Windows 防 火 墙 。 


7. 概 要 


本 章 为 一 种 云 管 平台 集群 提供 了 架构 示例 ， 该 集群 可 在 超 融 合 基 础 架构 平台 上 使 用 Virtual SAN 存 储 ， 并 将 主机 计算 、 网 络 
和 存储 融入 一 个 构建 块 解决 方案 之 中 。 尽 管 此 设计 示例 提供 的 架构 并 不 全 面 ， 但 它 在 一 定 程度 上 满足 了 一 开始 所 述 的 设计 需求 。 


第 8 章 ”使 用 Virtual Volumes 实 现 策略 驱动 的 存储 设计 


自 1998 年 以 来 ， 基 于 VMware 的 服务 器 和 桌面 虚拟 化 通过 全 力 提升 效率 并 改善 自动 化 和 运营 水 平 ， 成 功 地 解决 了 IT 组 织 面 
临 的 众多 挑战 。 然 而 ， 近 年 来 ， 共 享 存储 和 虚拟 化 应 用 之 间 的 集成 受到 限制 ， 从 而 在 一 定 程 度 上 阻碍 了 技术 的 进步 ， 使 发 展 步伐 
有 所 放 缓 。 


为 了 帮助 弥合 应 用 和 存储 系统 之 间 的 鸿沟 ，VMware 面 向 共享 存储 系统 推出 了 一 项 新 技术 ， 使 这 些 系统 可 与 vSphere 层 更 紧 
密 地 集成 在 一 起 ， 以 应 对 软件 定义 存储 时 代 的 挑战 。 与 Virtual SAN 不 同 的 是 ， 虚 拟 卷 (Virtual Volumes，VVOL) 采用 第 三 方 
存储 供应 商 提供 的 集中 式 存 储 系统 ， 使 “Sphere 存储 管理 员 能 够 充分 利用 一 切 可 能 获得 的 优势 ， 将 基于 阵列 的 存储 资源 与 应 用 更 


正如 第 2 章 中 所 述 ， 在 传统 存储 机 制 下 ， 存 储 阵列 主要 通过 VMware VMFS 在 数据 存储 级 别 与 vSphere 集 成 。 然 而 ，Virtual 
Volumes 的 目标 是 ， 不 再 需要 大 量 固定 大 小 的 统一 LUN 即 可 应 对 传统 存储 模型 面临 的 主要 挑战 。 此 外 ，Virtual Volumes 有 助 于 
情 细 地 控制 存储 策略 ， 而 这 些 策略 基于 LUN 功 能 (而 不 是 基于 虚拟 机 负载 需求 ) 来 提供 以 LUN 为 中 心 的 存储 配置 以 及 严格 的 服 
务 级 别 。 

传统 存储 系统 的 这 些 挑战 往往 会 导致 过 度 置 备 存储 资源 ， 使 其 难以 预测 正常 的 容量 和 性 能 的 变化 情况 ， 也 很 难以 根据 预定 义 
的 负载 要 求 来 更 改 所 分 配 的 策略 。 有 了 新 一 代 共 享 存储 模型 ，vSphere 可 以 使 用 Virtual Volumes 的 新 框架 来 管理 虚拟 机 磁盘 ， 
这 样 就 能 够 在 虚拟 磁盘 级 别 来 执行 基于 阵列 的 操作 ， 实 现 更 高 级 的 集成 能 力 。 


我 们 回 到 集中 式 共享 存储 模型 ，Virtual Volumes 如 图 8-1 所 示 。 可 以 看 出 ， 存 储 的 表现 形式 以 及 vSphere 组 件 和 存储 阵列 之 
间 的 天 系 发 生 了 显著 的 变化 。 
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图 8-1 虚拟 卷 存储 模型 


vSphere 6 推出 了 Virtual Volumes 功 能 ,使 SAN 和 NAS 存 储 系统 能 够 在 虚拟 机 级 别 进行 管理 ， 并 借助 VASA 2.0 提 供 基于 阵 
列 的 数据 服务 以 及 存储 阵列 功能 。vSphere 存 储 管理 员 可 以 利用 这 些 特点 ， 以 及 与 共享 存储 系统 集成 的 新 功能 ， 以 虚拟 机 和 应 用 
为 中 心 来 置 备 负载 ， 使 其 可 以 在 各 个 虚拟 磁盘 上 提供 性 能 和 数据 服务 。Virtual Volumes 机 制 彻底 改变 了 虚拟 机 与 共享 存储 系统 
交互 的 方式 ， 合 IT 组织 无 需 再 为 每 个 vSphere 和 集群 置 备 和 管理 大 量 LUN 或 卷 。Virtual Volumes 带 来 的 两 大 变化 如 下 : 


通过 VMware 基 于 存储 策略 的 管理 (Storage Policy Based Management，SPBM) 框架 简化 了 存储 管理 ， 并 实现 了 存储 置 备 自 
动 化 。 


通过 将 存储 卷 与 虚拟 机 一 对 一 映射 ， 在 虚拟 机 级 别 实现 了 粒度 管理 。 


利用 Virtual Volumes， 可 以 通过 与 Virtual SAN 相 同 的 SPBM 机 制 ， 在 虚拟 机 或 虚拟 磁盘 级 别 执行 存储 操作 。 然 而 ， 一 个 
Virtual Volumes 并 不 是 一 个 LUN (在 第 2 章 中指 一 个 传统 存储 系统 逻辑 构造 ) ; 同样 ， 一 个 Virtual Volumes 也 不 是 一 个 NAS 挂 
载 点 或 一 个 对 象 存储 (从 AWS S3 角 度 看 ) 。Virtual Volumes 是 在 共享 存储 系统 中 实现 的 一 种 新 型 虚拟 磁盘 容器 ， 而 这 种 共享 
存储 系统 是 独立 于 底层 物理 子 系统 的 。 这 一 虚拟 磁盘 容器 成 为 虚拟 机 数据 管理 的 基本 单位 ， 因 此 不 需要 预先 分 配 LUN 或 卷 。 


8.1 _ Virtual Volumes 技 术 简 介 


Virtual Volumes 可 以 使 存储 供应 商 硬 件 使 用 一 套 新 的 APl， 称 为 vSphere 存 储 感知 API 2.0 (VASA 2.0) ， 它 可 以 使 基于 
vSphere 6 的 系统 和 存储 阵列 之 间 实 现 双 向 直接 通信 ， 因 此 可 以 计 vSphere 存 储 管理 员 以 及 应 用 和 负载 获得 更 多 功能 ， 并 将 这 些 
功能 直接 提供 给 虚拟 机 。 


vSphere 主 机 和 Virtual Volumes 之 间 可 通过 一 个 抽象 层 ( 称 为 协议 端点 一 一 Protocol Endpoint，PE) 建立 连接 ， 从 而 使 


存储 管理 员 可 以 自由 地 一 次 性 使 用 多 种 协议 ， 如 光纤 通道 、iSCSI 或 NFS。 


为 了 在 数据 中 心 使 用 Virtual Volumes， 人 存储 管理 员 必 须 满足 以 下 几 个 要 求 : 除了 要 求 vSphere 至 少 必须 为 版 本 6 之 外 ， 阵 列 
供应 商 必须 可 通过 VMware 提供 的 APl 来 支持 Virtual Volumes (VASA 2.0) ; 存储 管理 员 还 必须 满足 特定 供应 商 的 任何 其 他 和 具 
体 要 求 ， 例 如 ， 对 于 NetApp， 需 要 使 用 Virtual Storage Console (VSC) 。 


通常 ， 在 虚拟 数据 中 心 内 ， 存 储 阵列 可 提供 各 种 性 能 和 可 用 性 功能 ， 以 满足 不 同 应 用 的 需求 。 然 而 ， 到 现在 为 止 ， 这 一 直 是 
存储 管理 员 的 职责 所 在 。 如 果 没 有 Virtual Volumes， 在 共享 存储 设计 中 ， 存 储 的 功能 无 法 直接 应 用 于 各 个 虚拟 机 或 虚拟 磁盘 ， 
而 只 能 应 用 于 数据 存储 或 LUN 这 一 级 别 ， 这 些 数 据 存 储 和 LUN 包 含 大 量 的 虚拟 机 。 然 而 ， 随 着 Virtual Volumes 的 功能 进入 存储 
阵列 ，VMware vSphere 可 以 通过 VASA 2.0 使 vSphere 运 维 团 队 为 每 个 虚拟 机 或 虚拟 磁盘 分 配 存储 配置 文件 ， 并 为 应 用 选择 明 
确 需要 的 具体 存储 功能 。 


使 用 传统 存储 方式 ， 可 以 为 主机 或 集群 提供 SCSI LUN ， 底 层 存储 系统 对 虚拟 化 层 、 文 件 系统 、 客 户 机 操作 系统 或 应 用 几乎 
一 无 所 知 。 


在 这 种 类 型 的 设计 中 ， 虚 拟 化 层 和 vCenter Server 会 将 对 象 和 文件 (如 VMDK) 映射 到 其 相应 的 扩展 数据 块 、 页 码 和 逻辑 块 
地 址 (LBA) ， 而 这 些 内 容 可 由 存储 系统 识别 。 此 外 ， 对 于 NAS 和 解决 方案 ,会 在 底层 块 存储 上 放置 一 个 抽象 层 ， 用 来 处 理 文件 管 
理 以 及 文件 到 LBA 的 相关 映射 操作 。 


然而 ， 利 用 Virtual Volumes，vSphere 主 机 无 需 再 简单 地 提供 LUN ， 而 是 可 以 管理 存储 系统 上 的 数据 放置 和 访问 ， 并 深入 
了 解 各 种 实体 (如 VMDK、VMX、 上 日志、 克隆、 交换 ， 或 其 他 对 象 ) 对 应 的 LBA。 有 了 这 一 洞察 力 ， 存 储 系统 便 可 以 更 高 的 粒 
度 提供 原生 的 功能 ， 如 在 虚拟 机 或 虚拟 磁盘 级 别 执行 克隆 、 复 制 和 快照 ， 而 不 是 简单 地 对 各 个 LUN 执 行 操作 。 


这 种 架构 还 可 以 使 Virtual Volumes 将 更 多 的 智能 和 操作 从 虚拟 化 层 转 移 到 存储 系统 中 。 利 用 Virtual Volumes， 存 储 系统 


不 再 需要 提供 SCSI LUN 或 NFS 挂 载 点 ， 也 不 会 再 像 以 往 那 样 无 法 有 限度 地 了 解 (VASA 1.0) ， 甚 至 根本 无 法 了 解 底层 存储 阵 
列 ， 而 是 可 以 通过 存储 配置 文件 配置 一 组 规则 ， 根 据 存储 阵列 发 布 的 不 同 功能 ， 定 义 分 配给 各 个 虚拟 机 的 服务 级 别 。 然 后 ， 可 以 


在 虚拟 机 置 备 过 程 中 选择 此 存储 配置 文件 ， 以 定义 负载 的 放置 位 置 和 可 用 功能 。 该 框架 有 助 于 解决 与 vSphere 存 储 和 基础 架构 相 
关 的 管理 挑战 ， 如 表 8-1 所 示 。 


表 8-1 vSphere 操 作 优先 级 





vSphere 存储 管理 员 的 主要 操作 问题 vSphere 基础 架构 管理 员 的 主要 操作 问题 
容量 管理 负载 的 按 需 存储 置 备 
访问 控制 在 虚拟 机 级 别提 供 适 当 的 数据 服务 
实现 应 用 SLA 要 求 在 整个 虚拟 机 生命 周期 内 进行 SLA 合 规 性 检查 
数据 安全 性 和 完整 性 





通过 SPBM 机 制 实现 与 存储 阵列 的 集成 ， 还 可 以 使 常见 的 存储 管理 相关 任务 (如 LUN 置 备 ) 的 管理 开销 得 以 减少 。 在 虚拟 机 
置 备 过 程 中 ， 通 过 使 用 SPBM 机 制 置 备 Virtual Volumes 来 满足 服务 级 别 要 求 ， 可 以 使 存储 管理 减少 运营 开销 。 管 理 员 不 必 预 先 
置 备 LUN 和 数据 存储 ， 从 而 使 成 本 得 以 降低 。 对 于 通过 适当 的 协议 端点 (PE) 访问 基于 NAS 的 NFS 存 储 而 言 ， 同 样 可 以 获得 这 
些 优势 。 图 8-2 从 整体 上 对 传统 的 、 基 于 VMware VMFS LUN 的 数据 存储 架构 与 Virtual Volumes 人 存储 架构 进行 了 对 比 。 





此 外 ，Virtual Volumes 使 底层 的 存储 系统 与 vSphere 主 机 及 其 相关 的 管理 工具 结合 得 更 加 紧密 ， 包 括 所 支持 的 云 管 平台 
(Cloud Management Platforms，CMP) ， 以 及 为 提高 性 能 、 可 用 性 、 容 量 而 提供 的 服务 类 (classes) 或 类 别 
(categories) 。 这 种 共享 存储 模型 架构 还 可 以 使 第 三 方 存 储 供 应 商 通过 以 下 方式 改善 IT 组 织 和 服务 提供 商 的 存储 容量 消耗 情 

况 。 


* 服务 级 别 从 面向 LUN 转 变 为 面向 虚拟 机 置 备 ， 不 仅 可 以 应 用 于 虚拟 机 ， 还 可 以 应 用 于 各 个 虚拟 磁盘 。 
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图 8-2 ”传统 存储 架构 与 Virtual Volumes 比 较 
通过 SPBM 机 制 使 存储 阵列 提供 自己 独特 的 功能 。 这 些 功能 可 能 包括 可 用 性 、 去 重 、 数 据 压缩 或 加 密 等 。 
“ 使 存储 阵列 能 够 在 各 个 虚拟 磁盘 级 别 控制 数据 。 


“ 简化 虚拟 机 置 备 过 程 ， 使 虚拟 磁盘 能 够 通过 预 配置 的 协议 端点 访问 存储 阵列 。 


8.1.1 Virtual Volumes 组 件 技术 架构 

Virtual Volumes 架 构 涉及 新 的 存储 构造 、 概 念 和 术语 。 本 节 对 其 中 每 一 项 进行 了 介绍 ， 便 于 你 熟悉 该 技术 ， 更 好 地 理解 
Virtual Volumes 存 储 架 构 ， 并 了 解 这 些 组 件 是 如 何 相互 作用 的 。 我 们 将 在 下 面 进行 讨论 其 中 的 每 一 种 技术 组 件 ， 整 体 上 如 图 8- 
3 所 示 。 


8.1.2 _ Virtual Volumes 对 象 架 构 


如 前 所 述 ，Virtual Volumes (如 同 vSAN) 代表 了 一 种 全 新 类 型 的 存储 机 制 。 虚 拟 机 对 象 存储 在 存储 系统 容器 本 机 位 置 。 
Virtual Volumes 本 身 就 是 一 个 容器 ， 它 封装 了 虚拟 机 、 虚 拟 磁盘 及 其 衍生 物 。 一 个 虚拟 机 包括 多 个 VVOL， 一 个 用 于 配置 数 
据 ， 一 个 用 于 各 个 虚拟 磁盘 文件 ， 一 个 用 于 虚拟 机 的 交换 文件 ， 而 其 他 则 用 于 当前 任何 虚拟 机 快照 的 内 存 和 数据 。 用 来 存放 
Virtual Volumes 对 象 的 容器 会 映射 到 其 衍生 的 源 文件 ， 如 VMDK 或 虚拟 机 交换 文件 。 
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图 8-3 vSphetre Virtual Volumes 组 件 体 系 架 构 


自动 为 创建 、 开 机 、 克 隆 和 快照 等 虚拟 机 操作 创建 的 Virtual Volumes 有 5 种 对 象 类 型 。 每 一 种 都 会 映射 到 其 对 应 的 虚拟 机 
文件 ， 如 表 8-2 所 示 。 


表 8-2 Virtual Volumes 对 象 类 型 


对 象 类 型 映射 的 衍生 物 

配置 VVOL 虚拟 机 主 命名 空间 容器 ， 用 于 存储 与 配置 相关 的 文件 ， 例 如 日 志和 VMX 文件 
数据 VVOL 映 和 里 到 虚拟 磁盘 (VMDK ) 

内 存 VVOL 快照 文件 

快照 VVOL 虚拟 机 内 存 交 换文 件 

其 他 VVOL 为 特定 硬件 或 软件 供应 商 的 解决 方案 定义 的 通用 对 象 类 型 


8.2 ”管理 平面 


Virtual Volumes 管 理 平 面 是 指 用 于 vSphere 组 件 和 存储 阵列 之 间 通 信 的 管理 和 控制 路 径 。 


8.2.1 VASA 2.0 规 范 


Virtual Volumes 的 底层 VMware 技术 起 初 是 在 vSphere 5 中 推出 的 ， 包 括 vStorage APls for Array Integration (VAAI) 
和 VASA。 如 第 2 章 所 述 ， 有 了 VAAI，vSphere 主 机 便 可 将 一 些 常用 功能 分 流 到 存储 系统 中 ， 可 在 这 些 系 统 中 实现 复制 、 克 隆 和 
置 零 等 功能 。 此 外 ， 我 们 还 介绍 了 VASA 机 制 ， 该 机 制 用 来 在 虚拟 化 层 及 其 相关 vCenter 管 理 以 及 存储 系统 之 间 提 供 可 见 性 、 洞 
察 力 和 感知 。 通 过 该 功能 ， 任 何 供应 商 的 存储 阵列 都 能 够 将 其 各 种 功能 发 布 到 vsphere， 如 存储 容量 、 可 用 性 、 性 能 、 配 置 等 。 


Virtual Volumes 是 VASA 2.0 规 范 的 一 部 分 ， 它 在 虚拟 机 级 别 为 抽象 化 存储 定义 了 一 个 更 完整 的 新 标准 。VASA 2.0 包 括 更 
广泛 的 APl， 使 VvSphere 能 够 查询 存储 功能 ， 然 后 SPBM 机 制 可 以 使 用 这 些 功 能 来 决定 虚拟 磁盘 放置 。 


VASA 2.0 规 范 是 在 vSphere 6 中 推出 的 ， 它 采用 双向 通信 机 制 ， 使 虚拟 化 层 和 管理 工具 可 以 告知 存储 阵列 其 配置 和 行为 。 此 
外 ， 共 享 存储 阵列 可 以 设置 Virtual Volumes 的 放置 方式 ， 以 便 通 过 一 组 自己 的 技术 特性 为 每 个 虚拟 机 提供 所 需 的 功能 。 利 用 这 
一 全 新 的 集成 存储 技术 ， 可 以 在 存储 系统 的 存储 容器 中 为 每 个 虚拟 机 置 备 一 组 独立 的 Virtual Volumes。 


8.2.2 ” ”VASA 提供 程 序 


VASA 提 供 程 序 有 时 也 称 为 存储 提供 程序 ， 由 存储 供应 商 的 系统 或 设备 通过 VASA API 提 供 。VASA 提 供 程序 是 一 种 双向 通信 
机 制 ， 采 用 VASA 向 vSphere 主 机 、vCenter Server 或 控制 路 径 中 的 其 他 管理 工具 报告 信息 、 配 置 以 及 其 他 洞察 力 。 此 外 ，VASA 
提供 程序 还 可 从 vSphere 堆 栈 接收 有 关 如 何 配置 存储 容器 等 存储 系统 组 件 的 VASA 信 息 。 


如 图 8-4 所 示 ，VASA 提 供 程序 可 将 有 关 存 储 拓扑 结构 、 功 能 和 当前 状态 的 信息 传递 到 vCenter Server 和 vSphere 主 机 。 
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图 8-4 VASA 控 制 路 径 


同时 ，VASA 提 供 程序 还 会 充当 支持 和 提供 Virtual Volumes 的 存储 系统 与 vSphere 管 理 组 件 (包括 vSphere 主 机 、vCenter 
Server 和 其 他 管理 工具 ) 之 间 的 带 外 管理 接口 。VASA 提 供 程序 通常 驻 留 在 存储 阵列 的 固件 中 ， 但 它 也 可 以 按照 存储 阵列 的 硬件 
或 软件 供应 商 的 定义 位 于 外 部 物理 服务 器 或 虚拟 设备 上 。 


8.3 数据 平面 


在 Virtual Volumes 架 构 中 ， 数 据 平面 有 多 种 构造 ， 其 中 包括 存储 容器 、 协 议 端点 和 绑 定 操作 。 我 们 在 本 章 的 以 下 几 节 中 分 
别 讨论 这 些 技术 和 机 制 。 


8.3.1 存储 容器 


与 以 往 从 阵列 上 的 裸 存 储 池 划 分 LUN 不 同 ，Virtual Volumes 可 采用 存储 容器 (Storage Container，SC) 以 逻辑 形式 表示 
裸 存储 容量 池 ， 并 在 其 中 创建 Virtual Volumes。 人 存储 容器 是 使 用 vCenter Server 的 Web 客 户 端 在 共享 阵列 上 创建 的 ， 它 与 
VASA 提 供 程序 相 结 合 ， 可 以 将 裸 磁盘 置 备 成 一 个 逻辑 实体 。 然 后 ， 可 以 通过 VASA 提 供 程序 来 公布 存储 容器 的 功能 。 


即使 存储 容器 不 能 视 为 一 个 LUN， 有 了 VASA 提 供 程序 和 协议 端点 ， 存 储 容器 也 可 以 被 vSphere 主 机 视 为 一 个 Virtual 
Volumes 数 据 人 存储 ， 简 称 虚 拟 数据 存储 (Virtual Datastore) 。 存 储 容器 必须 与 虚拟 数据 存储 有 一 对 一 的 关系 ， 类 似 于 分 布 式 
VSAN 数 据 存储 ， 这 在 之 前 的 第 4 章 中 解释 过 。 创 建 后 ， 虚 拟 数据 存储 即 可 提供 给 需要 的 主机 或 集群 ， 此 时 即 可 开始 置 备 虚拟 
机 ， 从 而 在 存储 容器 中 创建 Virtual Volumes。 要 使 VSphere 的 所 有 传统 功能 (如 高 可 用 性 HA) 能 够 与 新 的 虚拟 数据 存储 构造 进 
行 交 互 ， 必 须 在 vSphere 中 将 此 实体 作为 一 个 数据 存储 来 创建 。 


如 前 所 述 ， 一 个 存储 容器 不 能 视 为 一 个 LUN， 而 应 视 为 一 个 新 的 实体 类 型 ， 用 于 放置 后 端 为 Virtual Volumes 的 虚拟 机 。 表 
8-3 重 点 说 明了 存储 容器 实体 与 传统 意义 上 的 LUN 之 间 的 区 别 。 


表 8-3 ”存储 容器 和 传统 卷 /LUN 的 区 别 


存储 容器 传统 卷 /LUN 
大 小 可 基于 整个 阵列 的 容量 LUN 上 有 具有 固定 大 小 ,通常 会 批量 置 备 
存储 容 需 的 最 大 数量 仅 取决 于 阵列 中 由 供应 商定 义 的 功能 LUN 需要 VMFS 文件 系统 
存储 容器 的 大 小 可 以 像 任 何其 他 裸 存储 池 一 样 进行 扩展 只 能 在 该 LUN 中 置 备 的 所 有 虚拟 机 磁盘 (VMDK) 


存储 容 顺 可 以 区 分 该 实体 中 置 备 的 不 同 虚 拟 机 ( Virtual 
Volumes) 的 异 构 功能 


上 应 用 同 构 功能 
LUN 由 带 内 SCSI 文件 系统 命令 管理 





存储 厂商 采用 的 技术 决定 了 可 以 通过 阵列 的 存储 容器 提供 的 功能 ， 进 而 决定 了 提供 给 vSphere 的 存储 功能 。 例 如 ， 这 些 功能 
可 能 包括 存储 性 能 级 别 的 功能 (第 1 层 、 第 2 层 、 第 3 层 ) 、 备 份 、 快 照 、 去 重 、 静 态 数据 加 密 等 。 因 此 ， 我 们 可 以 使 用 存储 容器 
作为 逻辑 分 区 来 满足 存储 需求 ， 或 者 在 一 个 存储 容器 中 提供 多 个 功能 。 


另外 ， 人 存储 容器 和 协议 端点 之 间 没 有 直接 的 一 对 一 映射 。 一 个 协议 端点 可 以 管理 多 个 存储 容器 ， 也 可 以 使 用 多 个 协议 端点 管 
理 一 个 存储 容器 ， 我 们 将 在 下 一 节 对 此 进行 讨论 。 此 外 ， 虽 然 存 储 容器 的 实施 方式 会 因 人 存储 阵列 供应 商 的 不 同 会 有 变化 ， 但 对 于 


一 个 Virtual Volumes 存 储 容器 来 说 ， 不 需要 始终 有 一 组 统一 的 功能 。 例 如 ， 存 储 容器 不 需要 完全 采用 SAS 磁 盘 或 闪存 设备 ， 而 
是 可 以 由 异 构 的 物理 存储 资源 池 构 成 。 实 际 上 ， 一 个 存储 容器 是 一 个 包含 裸 物 理 磁 盘 的 存储 池 的 聚合 ， 其 中 包括 组 成 该 池 的 功 

能 ， 如 配置 的 特定 RAID 级 别 或 物理 磁盘 组 合 等 ， 如 图 8-5 所 示 。 然 而 ， 如 何 将 存储 容器 的 功能 (如 快照 、 复 制 、 去 重 或 静态 数据 
加 密 ) 应 用 到 vSphere 平 台 ,不 同 的 厂商 所 采用 的 方式 也 会 有 所 不 同 。 


最 后 ， 存 储 容器 无 法 通过 带 内 数据 路 径 来 查看 。VASA 提 供 程 序 可 用 于 管理 存储 容器 ， 并 通过 VASA 提 供 程 序 的 URL 经 由 带 
外 控制 路 径 将 这 些 存储 容器 的 状态 报告 给 vCenter Server 和 vSphere 主 机 。 存 储 容器 部 署 过 程 如 图 8-6 所 示 。 
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图 8-5 ”存储 容器 的 架构 


E> E> E> E> EN 


存储 管理 员 为 为 阵列 上 的 存 在 vCenter Server VASA 提 供 程序 后 续 将 根据 基 
阵列 上 的 存储 容 储 容器 配置 所 需 中 注册 VASA 提 供 向 vCenter 提 供 存 于 存储 策略 的 管 
器 设置 所 需 的 容 的 功能 程序 的 URL 储 容器 及 其 功能 理 配置 文件 ， 在 
量 新 存储 容器 上 置 

备 所 有 新 置 备 或 
迁移 的 虚拟 机 


图 8-6 ”存储 容器 部 署 过程 


8.3.2 协议 端点 


协议 端点 表示 Virtual Volumes 的 MO 访问 点 。 协 议 端 点 就 像 LUN 或 挂 载 点 一 样 ， 它 们 可 以 被 多 个 主机 挂 载 或 发 现 。 在 
Virtual Volumes 架 构 中 ，vSphere 主 机 不 能 直接 访问 存储 器 阵列 上 的 Virtual Volumes， 而 是 使 用 协议 端点 逻辑 MO 代理 与 
Virtual Volumes 进 行 通 信 ， 从 而 取代 了 传统 的 LUN 和 挂 载 点 ， 使 协议 端点 可 以 充当 主机 和 虚拟 机 上 相应 VVOL 之 间 的 数据 路 
径 。 

更 具体 地 说 ，Virtual Volumes 的 所 有 路 径 都 由 协议 端点 来 管理 。 可 通过 这 些 协 议 端点 来 访问 特定 的 虚拟 机 对 象 ， 如 存储 在 
其 Virtual Volumes 上 的 VMDK 或 VMX 文 件 。 协 议 端 点 就 像 一 个 直通 (pass-through) 设备 ， 利 用 协议 端点 多 路 径 功能 处 理 所 
有 从 虚拟 机 到 多 个 VVOL 的 所 有 1/O 请 求 。 一 个 或 多 个 协议 端点 可 支持 一 个 vSphere 主 机 集群 和 一 个 存储 阵列 。 简 而 言 之 ， 一 个 
协议 端点 和 存储 容器 共同 在 vSphere 存 储 堆栈 中 创建 了 虚拟 数据 存储 。 


如 图 8-7 所 示 ， 该 协议 端点 使 VSphere 虚 拟 化 层 能 够 查看 和 访问 VMDK 以 及 存储 在 Virtual Volumes 中 的 其 他 对 象 。 
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图 8-7 协议 端点 的 体系 架构 


协议 端点 的 操作 取决 于 正在 使 用 的 存储 协议 。 完 全 支持 的 协议 包括 : NFS 版 本 3、iSCSI、 光 纤 通 道 和 FCoE。 对 于 NFS 存 
储 ， 协 议 端 点 只 是 一 个 NFs 挂 载 点 ， 虚 拟 磁盘 是 该 挂 载 点 下 的 文件 。 


然而 ， 对 于 基于 SAN 的 块 协议 ， 协 议 端 点 是 一 个 代理 LUN， 充 当 一 个 多 路 复 用 器 ， 可 以 使 每 个 主机 访问 成 干 上 万 个 VVOL, 
每 个 VVOL 都 对 应 一 个 虚拟 磁盘 或 其 他 类 型 的 对 象 ， 并 具有 一 个 唯一 标识 符 。 支 持 多 个 存储 I/O 路 径 或 光纤 通道 、iSCSI 和 NFS 等 
存储 协议 的 存储 阵列 可 以 使 多 个 协议 端点 指向 同一 个 存储 容器 。 可 以 采用 以 往 在 vSphere 中 使 用 的 LUN 常 规 扫 描 命令 来 发 现 和 重 
新 发 现 Virtual Volumes 协 议 端 点 构造 。 


对 于 存储 I/O 操 作 而 言 ， 该 协议 端点 只 是 一 个 直通 机 制 ， 并 不 存储 VMDK 或 其 他 vSphere 虚 拟 机 组 件数 据 ， 架 构 师 一 定 要 认 
识 到 这 一 点 。 

Virtual Volumes 协 议 端点 使 用 多 路 径 策略 的 方式 与 传统 共享 存储 环境 相同 ， 并 且 为 协议 端点 提供 的 策略 选项 也 与 传统 LUN 
相同 。 因 此 ， 如 果 发 生路 径 故 障 切 换 操 作 ， 则 绑 定 到 该 协议 端点 的 所 有 Virtual Volumes 都 会 发 生路 径 故障 切换 ， 本 机 ESXi 多 路 
径 插 件 会 被 修改 ， 以 确保 它 不 会 将 内 部 Virtual Volumes 错 误 条 件 视 为 一 个 路 径 故 障 。 此 外 ，vSphere 还 会 确保 早期 版 本 的 多 路 
径 揪 件 无 法 声明 协议 端点 Virtual Volumes。 协 议 端 点 的 发 现 和 置 备 流程 如 图 8-8 所 示 。 
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VASA 提 供 程 序 在 在 集群 上 创建 虚拟 在 ESXi 重 新 扫描 主机 报告 给 VASA 
注册 过 程 中 向 vCenter 数据 存储 后 ，vCenter 操作 中 发 现 块 协议 提供 程序 可 访问 的 
Server 报 告 存储 容器 Server 将 协议 端点 配 端点 。 自 动 配置 和 协议 端点 


的 协议 端点 置信 息 传递 给 主机 挂 载 NFS 协 议 端点 


图 8-8 协议 端点 部 署 过 程 


创建 Virtual Volumes 后 ，1/O 不 能 立即 访问 它 。 要 访问 Virtual Volumes，vSphere 首 先 需 要 向 VASA 提 供 程序 发 出 一 个 绑 
定 操作 ， 该 操作 会 在 VASA 提 供 程序 所 选 的 协议 端点 上 为 Virtual Volumes 创 建 一 个 MO 访问 点 。 


8.3.3 ” 绑 定 操作 


绑 定 操作 用 于 协调 VASA 提 供 程序 和 vSphere 主 机 之 间 用 于 访问 Virtual Volumes 的 数据 路 径 机 制 ， 如 图 8-9 所 示 。 根 据 
vSphere 主 机 的 请 求 ，VASA 提 供 程序 会 与 阵列 进行 协调 来 创建 绑 定 ， 然 后 可 以 在 主机 和 阵列 之 间 使 用 此 绑 定 来 访问 Virtual 


Volumes。 
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图 8-9” 绑 定 操作 


绑 定 类 型 有 3 种 ， 可 用 于 在 Virtual Volumes 生 命 周 期 中 执行 不 同 的 操作 。 
1) 绑 定 (Binding) : 允许 阵列 为 Virtual Volumes 创 建 MO 通 道 。 


2) 解 绑 (Unbind) : 销毁 Virtual Volumes 与 给 定 vSphere 主 机 之 间 的 MO 通道 (协议 端点 ) 。 在 解 绑 操 作 中 ，VASA 提 供 
程序 会 根据 主机 的 请 求 删除 绑 定 。 通 常 ， 执 行 解 绑 操 作 时 必须 关闭 虚拟 机 的 电源 。 


3) 重新 绑 定 (Rebind) : 更 改 给 定 Virtual Volumes 的 MO 通 道 (协议 端点 ) ， 如 将 Virtual Volumes 移 动 到 另 一 个 协议 端 
点 。 如 果 在 存储 容器 之 间 发 生存 储 迁 移 (svMotion) 事件 ， 或 者 为 了 在 多 个 协议 端点 之 间 进 行 负载 均衡 ，VASA 提 供 程序 也 可 
能 会 启动 重新 绑 定 操作 。 此 外 ，VASA 提 供 程序 也 可 能 会 出 于 其 他 原因 ， 选 择 将 VVOL 重 新 绑 定 到 协议 端点 ， 以 提供 供应 商 特有 
的 功能 。 


在 绑 定 机 制 工作 流 中 ，vSphere 主 机 通过 特定 的 绑 定 ID 来 引用 Virtual Volumes， 并 使 用 bindVirtualVolume API 以 及 给 定 
的 vvollD 来 向 VASA 提 供 程序 发 出 调用 ， 而 此 vvollD 就 是 引用 特定 VVOL 的 VVOL ID。 然 后 ，VASA 提 供 程序 会 返回 一 个 协议 端点 
1D 以 及 一 个 辅助 D。 如 果 使 用 的 是 SCS1， 则 此 1D 为 一 个 二 级 LUN ID; 如 果 使 用 的 是 NAS， 则 此 1D 为 一 个 MO 对 象 。 这 些 值 将 构 
成 objectID。 


如 果 使 用 的 是 SCSI 块 设备 ， 则 从 VASA 提 供 程 序 获 取 此 信息 后 ， 系 统 会 根据 传输 协议 使 用 此 信息 打开 SCSI 堆 栈 中 的 一 个 SCSI 
设备 ， 或 对 NFS 客 户 端 执行 “文件 打开 ”命令 ， 以 构建 vSphere 主 机 到 Virtual Volumes 的 数据 路 径 。 


8.4 使 用 Virtual Volumes 实 现 基于 存储 策略 的 管理 


Virtual Volumes 采 用 与 Virtual SAN 相 同 的 SPBM 机 制 ， 因 此 推动 我 们 朝 着 软件 定义 的 存储 的 方向 迈进 了 一 步 。SPBM 可 在 
整个 vSphere 层 中 为 策略 驱动 型 存储 控制 平面 提供 一 个 通用 平台 ， 如 图 8-10 所 示 。 


与 VSAN 使 用 SPBM 的 方式 类 似 ， 这 种 机 制 可 以 使 vSphere 管 理 员 快速 、 方 便 地 自动 放置 虚拟 机 ， 并 通过 在 各 个 磁盘 级 别提 
供 负载 功能 使 应 用 所 有 者 能 够 更 精细 地 进行 控制 。 有 了 SPBM ， 在 置 备 虚拟 机 后 ， 可 以 通过 一 种 存储 策略 来 自动 选择 最 合适 的 虚 
拟 数据 存储 ， 来 满足 所 分 配 的 策略 中 定义 的 负载 需求 。 


这 种 简化 机 制 使 VSphere 存 储 管理 员 克 服 了 置 备 虚拟 机 存储 时 的 一 些 挑战 ， 包 括 容量 规划 、 为 有 限 的 资源 管理 多 样 化 的 SLA 
以 及 为 各 个 虚拟 机 置 备 恰 当 定义 的 存储 策略 ， 也 可 以 根据 需要 逐个 按 虚拟 磁盘 来 置 备 此 类 策略 ， 如 图 8-11 所 示 。 


SPBM 框 架 还 会 使 用 可 编程 AP1， 以 便 通 过 脚本 或 云 自动 化 工具 来 使 用 控制 平面 和 存储 策略 机 制 。 此 功能 为 自助 服务 消费 模 
式 以 及 CMP ( 云 管 平台 ) 的 存储 管理 和 操作 提供 了 一 个 框架 。 除 了 在 vSphere 环 境内 部 优化 置 备 过 程 之 外 ，SPBM 还 可 以 由 其 他 
VMware 或 第 三 方 工具 用 于 自动 管理 存储 。VMware vRealize Automation、vSphere API、PowerCLI 和 VMware Integrated 
Open Stack (VIO) 应 用 都 能 够 使 用 vSphere SPBM API 在 软件 定义 的 存储 基础 架构 内 自动 执行 存储 管理 操作 ， 如 图 8-12 所 
示 。 云 自动 化 概念 以 及 如 何 实现 存储 即 服务 (STaaS) 将 在 第 9 章 中 详 述 。 
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图 8-12 ”存储 策略 驱动 的 云 存储 平台 


8.4.1 已 发 布 功能 
特定 存储 阵列 可 提供 的 存储 功能 由 系统 定义 或 取决 于 特定 供应 商 ， 我 们 已 强调 过 ， 这 些 功能 将 通过 VASA 2.0 由 存储 阵列 的 
VASA 提 供 程序 服务 来 发 布 。 


VASA 提 供 程序 会 以 可 用 物理 存储 属性 的 形式 将 存储 系统 功能 信息 从 阵列 发 布 到 vSphere。 这 些 功能 可 能 包括 RAID 级 别 、 精 
简 置 备 、 驱 动 器 类 型 、 快 照 、 静 态 数据 加 密 、 压 缩 、 去 重 等 。 这 些 功 能 是 特定 存储 系统 所 特有 的 ， 一 经 发 布 ， 便 可 用 于 基于 
SPBM 的 存储 策略 机 制 。 这 些 策略 与 虚拟 机 相关 联 后 ， 可 以 用 于 定义 所 需 的 性 能 、 容 量 和 可 用 性 水 平 ， 或 者 应 用 负载 或 其 各 个 虚 
拟 磁 盘 所 需 的 其 他 已 发 布 存 储 服务 。 


在 Virtual Volumes 存 储 策略 中 ， 可 以 引用 两 种 存储 功能 : 
“ 特定 供应 商 的 存储 功能 
" 用 户 定义 的 元 数据 标记 


特定 供应 商 的 存储 功能 总 体 代表 了 服务 质量 以 及 存储 系统 可 以 提供 的 其 他 功能 。vSphere 也 可 能 会 提供 所 有 数据 存储 通用 的 
功能 。 不 过 ， 存 储 系统 提供 并 发 布 的 存储 功能 是 由 系统 定义 的 或 供应 商 所 特有 的 。 


用 户 定义 的 元 数据 标记 是 一 个 可 选 标 记 ， 由 vSphere 存 储 管理 员 手 动 定义 ， 并 可 与 虚拟 数据 存储 相关 联 。 用 户 定 义 的 元 数据 
标记 可 以 为 创建 的 存储 策略 提供 更 多 标准 ， 用 来 补充 并 进一步 扩展 存储 阵列 的 VASA 提 供 程序 所 发 布 的 功能 。 


8.4.2 存储 功能 


VASA 2.0 框 架 决 定 了 存储 阵列 和 Virtual Volumes 之 间 支 持 的 集成 水 平 以 及 功能 集 ， 此 框架 仍 由 VMware 研 发 。 随 着 VASA 
2.0 规 范 的 开发 ， 各 个 存储 供应 商 也 将 在 其 硬件 平台 中 启用 这 些 新 功能 以 及 其 他 功能 ， 并 通过 VASA 提 供 程 序 将 这 些 功 能 发 布 到 
VMware 堆 栈 中 。 下 面 将 重点 介绍 一 些 常见 功能 ,这 些 功 能 由 存储 供应 商 提供 并 通过 VASA 提 供 程序 发 布 ， 可 用 于 启用 Virtual 
Volumes 功 能 。 然 而 ， 无 法 提供 供应 商 支 持 的 完整 功能 及 其 具体 特性 列表 ， 因 为 这 些 内 容 都 由 系统 定义 ， 与 特定 供应 商 相关 ， 
且 仍 在 不 断 开 发 中 。 


1. 基 于 阵列 的 快照 


在 使 用 VMFS 数 据 存储 的 传统 存储 模型 中 ， 基 于 阵列 的 快照 只 能 在 整个 LUN 级 别 创建 。 因 此 ， 还 原单 个 虚拟 机 需要 执行 额外 
的 操作 过 程 。 


启用 了 Virtual Volumes 的 vSphere 环 境 支 持 两 种 虚拟 机 快照 机 制 : 受 管 和 非 受 管 。 传 统 vSphere 虚 拟 机 快照 由 vCenter 在 主 
机 级 别 执行 ， 称 为 受 管 快照 。 此 类 快照 完全 受 vSphere 组 件 管理 。 而 使 用 已 启用 的 存储 阵列 功能 创建 的 非 受 管 快照 则 可 以 完全 御 
载 到 存储 硬件 。 


通过 启用 了 Virtual Volumes 的 受 支持 阵列 ， 可 以 在 各 个 虚拟 机 上 创建 非 受 管 快照 ， 从 而 将 vSphere 快 照 完 全 御 载 到 阵列 。 
除 此 之 外 ， 此 功能 还 可 以 提供 如 下 优势 : 


更 轻松 地 执行 还 原 过 程 

通过 静默 副本 进行 备份 或 存档 
` 为 应 用 创建 测试 和 回 滚 环境 
. 即时 置 备 新 应 用 映像 


使 用 此 功能 ，vSphere 管 理 员 还 可 以 通过 vSphere Web Client 全 面 而 透明 地 管理 这 些 基于 阵列 的 快照 ， 就 像 使 用 传统 受 管 
VvSphere 快 照 机制 一 样 简单 。 


2. 基 于 阵列 的 精简 置 备 


使 用 传统 VMFS 数 据 存储 时 ，vSphere 存 储 管理 员 可 以 选择 通过 vSphere 或 在 存储 阵列 上 执行 精简 置 备 ， 也 可 以 在 进行 慎重 
考虑 后 ， 将 这 两 种 机 制 结合 起 来 使 用 。 然 而 ， 在 启用 了 Virtual Volumes 的 存储 系统 上 ， 基 于 阵列 的 精简 置 备 取代 了 vSphere 精 
简 置 备 ， 因 此 ， 这 一 设计 因素 不 再 需要 由 架构 师 来 解决 。 所 有 通过 vSphere 部 署 的 虚拟 机 都 会 配置 为 精简 置 备 ， 因 此 会 自动 在 阵 
列 级 别 的 虚拟 数据 存储 上 进行 精简 置 备 。 


3. 空 间 回 收 


在 VMFS 数 据 存储 上 ， 存 储 阵 列 无 法 察觉 虚拟 机 被 删除 或 从 LUN 迁 移 走 。 在 这 种 环境 中 ， 空 间 回收 是 一 个 漫长 的 过 程 ， 需 要 
占用 大 量 资源 ， 并 且 往 往 需要 存储 管理 员 使 用 命令 行 工 具 来 手动 完成 。 而 使 用 Virtual Volumes， 便 可 即时 回收 空间 ， 因 为 存储 
阵列 可 以 完全 识别 所 有 虚拟 机 操作 。 因 此 ， 为 已 删除 的 虚拟 机 分 配 的 空间 可 以 自动 、 即 时 回收 ， 而 对 环境 毫 无 影响 。 


4. 去 重 功能 


昌 然 一 些 传统 存储 阵列 可 以 在 阵列 块 级 别 实现 去 重 ， 但 VMFS 数 据 存储 无 法 提供 任何 基于 虚拟 机 的 去 重 功能 。 然 而 ， 通 过 支 
持 阵列 端 去 重 技术 的 Virtual Volumes 功 能 ， 则 可 以 对 正在 运行 的 特定 虚拟 机 负载 实施 去 重 。 此 技术 可 以 面向 特定 负载 ， 并 让 这 
些 负载 受益 匪 浅 ， 不 会 影响 其 他 需要 避免 性 能 开销 的 高 优先 级 应 用 。 


8.4.3 ”存储 功能 概要 


前 面 介 绍 的 功能 仅仅 是 一 小 部 分 例子 ， 当 然 还 要 看 阵列 供应 商 是 否 支 持 这 些 功 能 。 通 过 在 阵列 上 执行 这 些 功能 ， 或 者 将 其 从 
vSphere 计 算 主机 印 载 到 存储 硬件 ， 可 以 加 快 这 些 功能 的 执行 速度 ， 并 提升 其 执行 效率 。 这 种 存储 操作 方法 有 助 于 增加 主机 资 
源 ， 并 简化 与 vSphere 和 存储 相关 的 任务 和 过 程 。 


8.5 设计 Virtual Volumes 的 优势 


至 此 ， 你 已 经 大 致 了 解 了 通常 会 在 设计 中 使 用 的 Virtual Volumes 特 征 和 功能 。 现 在 ， 我 们 将 总 结 一 下 与 Virtual Volumes 
相关 的 关键 设计 因素 和 用 例 。 你 将 了 解 到 为 什么 在 特定 环境 中 推荐 使 用 Virtual Volumes， 而 不 是 传统 的 VMFS 块 级 数据 存储 或 
NFS 数 据 存 储 。 


8.5.1 增强 的 性 能 


与 以 前 使 用 VAAI 相 比 ，Virtual Volumes 可 以 使 vSphere 将 更 多 的 任务 印 载 到 存储 阵列 ， 从 而 通过 直接 访问 存储 层 来 提升 负 
载 的 执行 速度 和 效率 。 这 种 紧密 集成 的 框架 不 仅 使 存储 阵列 可 以 执行 从 vsphere 印 载 的 通用 任务 ， 如 快照 和 精简 置 备 ， 还 有 助 于 
供应 商 将 特有 的 功能 发 布 到 vsphere， 以 便 提 供 硬 件 供应 商 特有 的 存储 技术 ， 并 将 其 集成 到 vsphere 软 件 堆栈 中 。 


8.5.2 ”更 强 的 应 用 控制 


在 Virtual Volumes 面 市 之 前 ， 传 统 VMFS 数 据 存储 无 法 (或 几乎 无 法 ) 使 存储 阵列 识别 虚拟 机 磁盘 。 因 此 ， 存 储 阵列 的 特 
征 (如 QoS 和 快照 ) 只 能 在 LUN 级 别 执行 。 然 而 ， 有 了 Virtual Volumes 之 后 ， 支 持 VVOL 的 存储 阵列 功能 现在 可 以 通过 SPBM 
框架 在 各 个 虚拟 机 或 虚拟 磁盘 上 实施 ， 可 显著 提升 对 共享 存储 的 控制 ， 并 提高 其 效率 。 通 过 与 成 本 敏感 型 的 关键 业务 存储 资源 进 
行 更 精细 的 交互 ， 可 以 给 应 用 带 来 更 多 优势 。 


8.5.3 ”操作 简化 


SPBM 框 架 通 过 使 用 存储 策略 ， 简 化 了 常见 的 存储 管理 任务 。 利 用 一 组 通用 存储 策略 在 虚拟 机 创建 过 程 中 自动 置 备 Virtual 
Volumes 并 分 配 适 当 功 能 ， 可 以 使 存储 管理 员 无 需 预先 置 备 数据 人 存储， 从 而 减少 了 不 必要 的 任务 ， 降 低 了 运营 开销 和 成 本 。 








8.5.4 “减少 容量 浪费 


Virtual Volumes 仅 使 用 存储 阵列 上 的 虚拟 机 所 需 的 空间 。 因 此 ， 不 再 需要 按照 通常 预定 义 的 大 小 分 配 大 块 容量 。 此 外 ， 精 
简 置 备 和 去 重 功能 还 可 以 进一步 减少 虚拟 机 占用 的 磁盘 容量 。 阵 列 支 持 的 其 他 功能 (如 删除 或 移动 虚拟 机 时 自动 回收 空间 等 ) 还 
能 够 避免 空间 浪费 ， 并 且 使 存储 阵列 的 占用 空间 尽 可 能 的 小 ， 从 而 进一步 降低 了 成 本 。 


8.6 _ Virtual Volumes 的 关键 设计 要 求 


在 vSphere 存 储 设计 中 ，Virtual Volumes 要 求 满足 若干 重要 前 提 条 件 : 
. VSphete 核 心平 台 必 须 至 少 为 版 本 6。 
. 存储 供应 商 还 必须 通过 VMware 在 VASA 2.0 中 提供 的 API 支 持 Virtual Volumes。 


此 设计 还 必须 满足 存储 供应 商 特定 的 一 些 其 他 要 求 ， 如 NetApp 要 求 在 存储 实施 中 包括 其 VSC。 


8.7 vsSphere 人 存储 功能 的 互 操作 性 


Virtual Volumes 与 Virtual SAN 一 样 ， 都 可 以 与 大 多 数 vSphere 功 能 充分 集成 并 实现 全 面 互 操作 。 支 持 的 主要 功能 包括 : 链 
接 克 隆 、vMotion、 主 机 配置 文件 、SvMotion (在 不 同 虚拟 数据 存储 或 阵列 之 间 ) 、 分 布 式 资源 调度 (DRS) 、 增 强 型 
vMotion、vSphere SDK 和 vCenter API、VDPA 和 VDP、View、View Storage Accelerator、vRealize Operations 和 vRealize 
Automation。 然 而 ， 与 Virtual SAN 一 样 ， 存 储 分 布 式 资源 调度 (SDRS) 由 于 存储 置 备 机 制 而 成 为 一 项 多 余 的 功能 。 


8.8 VAAI 和 Virtual Volumes 


在 第 3 章 中 ， 我 们 讨论 了 VAAI (vStorage ApPl for Array Integration) 的 概念 。VAAI 的 基本 类 型 可 以 将 某 些 存储 任务 (如 
块 置 零 ) 从 vSphere 平 台 逢 载 到 存储 阵列 硬件 上 。 我 们 将 在 此 讨论 VAAI 的 基本 类 型 及 其 Virtual Volumes 互 操作 性 状态 。 与 讨论 
传统 存储 模型 一 样 ， 各 个 阵列 供应 商 还 必须 支持 对 Virtual Volumes 使 用 特定 基本 类 型 ， 这 样 才能 使 其 正常 运行 。 例 如 ， 可 能 
持原 子 级 的 测试 和 设置 (Atomic Test-and-Set，ATS) ， 因 为 仍然 需要 为 Virtual Volumes 虚 拟 机 主页 对 象 类 型 的 配置 提供 集 
群 文件 系统 语义 和 锁定 。 系 统 会 根据 对 与 VVOL 绑 定 的 协议 端点 LUN 的 ATS 支 持 来 检测 对 这 种 基本 类 型 的 支持 。 


也 可 以 支持 XCOPY (克隆 和 链接 克隆 ) ， 因 为 vSphere 可 以 通过 API 调 用 来 指示 阵列 代表 vSphere 克 隆 Virtual Volumes 对 


然而 ， 块 置 零 的 主要 目的 是 初始 化 在 VMFS 数 据 存储 上 置 备 的 厚 磁盘 ， 它 并 不 用 于 Virtual Volumes。 其 原因 是 ， 在 Virtual 
Volumes 基 于 VMFS 的 对 象 中 (如 虚拟 机 主 对 象 ， 其 缺 省 大 小 为 4GB， 用 于 存放 一 些小 文件 ， 如 磁盘 描述 符 、 虚 拟 机 配置 文件 、 
统计 和 日 志 数 据 等 ) ， 对 这 种 小 容量 的 块 置 零 操作 进行 卸载 并 没有 太 大 的 价值 。 


此 外 ， 还 可 以 支持 其 他 存储 阵列 基本 类 型 ， 但 请 务必 与 各 个 存储 阵列 供应 商 确定 这 些 基本 类 型 。 这 些 技术 需要 供应 商 的 支 
持 ， 才 能 与 基于 VMFS 的 传统 存储 和 Virtual Volumes 互 操作 。 


8.9 ” Virtual Volumes 概 要 


有 了 Virtual Volumes 和 Virtual SAN ， 我 们 真正 进入 了 软件 定义 存储 的 时 代 ， 因 此 ， 可 以 充分 利用 vsphere SPBM 机 制 。 


Virtual Volumes 通 过 存储 策略 ， 可 以 大 大 地 简化 vsphere 的 操作 ， 降 低 存储 的 复杂 性 ， 并 通过 将 常见 任务 卸载 到 存储 阵列 
来 提高 存储 资源 管理 的 整体 效率 。 在 实施 启用 了 Virtual Volumes 的 存储 环境 时 ， 架 构 师 需要 考虑 的 关键 设计 因素 是 ， 由 阵列 提 
供 并 由 vSphere 组 件 发 布 的 功能 会 因 存储 供应 商 的 不 同 而 有 所 不 同 。 因 此 ， 你 获得 的 优势 取决 于 你 选择 的 供应 商 及 其 在 存储 硬件 
上 实施 该 技术 的 方式 。 


Virtual SAN 和 Virtual Volumes 都 是 策略 驱动 型 解决 方案 ，vSphere 存 储 管理 员 根 据 可 应 用 于 各 个 对 象 的 策略 或 存储 服务 级 
别 配置 对 虚拟 机 或 虚拟 磁盘 的 要 求 。 分 配 后 ，SPBM 框 架 将 满足 这 些 要 求 ， 并 确保 所 分 配 的 虚拟 机 以 及 在 Virtual SAN 或 Virtual 
Volumes 数 据 存储 上 托管 的 底层 虚拟 磁盘 始终 符合 所 配置 的 策略 规则 。 


大 多 数 Virtual SAN 和 Virtual Volumes 的 日 常 操作 任务 都 可 以 通过 vSphere Web Client 提 供 的 简单 管理 界面 来 执行 ， 并 与 
复制 、 备 份 、vMotion、DRS 和 HA 等 现 有 vSphere 技 术 紧 密集 成 。 在 接 下 来 的 一 章 中 ， 我 们 将 探讨 通过 使 用 云 自 动 化 和 管理 平 
台 来 置 备 和 管理 存储 资源 ， 而 其 目的 是 进一步 减少 日 常 存储 任务 所 带 来 的 运营 开销 。 


第 9 草 ”提供 存储 即 服 务 设计 


许多 IT 组 织 和 云 服 务 提供 商 的 一 个 关键 目标 是 通过 云 管理 平台 (CMP) 提供 对 资源 的 自助 服务 访问 。vSphere 存 储 管理 员 的 
目的 是 将 存储 基础 设施 管理 实现 自动 化 ， 以 加 快 配置 时 间 ， 并 简化 操作 ， 提 高 其 效率 。 此 外 ， 对 于 许多 行业 而 言 ， 提 供 人 存储 即 服 
务 (STaaS) 的 关键 要 求 是 消除 开发 人 员 和 最 终 用 户 在 需要 资源 时 遇 到 的 障碍 ， 使 底层 存储 基础 设施 在 置 备 过 程 中 不 可 见 。 


在 数据 中 心 请 求 其 他 存储 资源 时 ， 大 多 数组 织 必须 解决 各 种 问题 和 注意 事项 ， 然 后 才能 置 备 这 些 存 储 资源 。 其 中 一 些 问题 可 
能 需要 由 IT 组 织 中 的 各 个 团队 来 解决 ， 并 且 有 可 能 需要 所 有 相关 团队 成 员 之 间 的 共同 配合 ， 如 图 9-1 所 示 。 由 于 这 种 复杂 和 长 时 
间 的 过 程 ， 使 得 其 部 署 新 的 存储 资源 可 能 涉及 较 长 的 置 备 时 间 。 这 反 过 来 也 可 能 导致 服务 置 备 的 瓶颈 ， 影 响 提 供给 最 终 客 户 的 服 
务 级 别 协议 (SLA) 。 
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图 9-1 人工 存储 置 备 过 程 


如 果 分 解 此 过 程 ， 你 可 以 很 快 理解 为 什么 向 一 个 环境 置 备 存 储 资 源 可 能 不 像 最 初 想象 的 那么 简单 。 如 图 9-1 所 示 ， 在 这 个 场 
景 中 ， 当 云 服 务 运营 商 请 求 新 的 存储 资源 时 ， 必 须 回答 几 个 问题 。 这 之 后 ， 在 各 种 硬件 组 件 上 (例如 交换 机 和 阵列 ) 还 需要 执行 
几 个 配置 任务 ， 当 然 这 可 能 由 不 同 的 团队 来 执行 。 这 也 使 得 在 这 样 的 环境 中 置 备 物理 存储 资源 非常 漫长 ， 如 图 9-2 所 示 。 
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图 9-2 复杂 存储 设置 过 程 


STaaS 云 平台 最 主要 的 目的 是 使 该 过 程 大 部 分 实现 自动 化 ， 并 减少 IT 组 织 中 管理 员 之 间 的 交互 的 需求 。 另 外 ， 通 过 使 用 软件 
自动 执行 日 常任 务 ， 运 维 团队 可 以 免除 执行 重复 的 手动 任务 。 此 外 ， 也 可 以 带 来 额外 的 好 处 ， 例 如 提供 更 短 时 间 交 付 SLA 和 提高 
质量 ， 同 时 使 存储 操作 和 报告 机 制 实现 标准 化 ， 如 图 9-3 所 示 。 


运行 工作 流 或 自 定义 脚本 
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图 9-3 ”存储 即 服务 请 求 工 作 流 的 示例 


与 此 同时 ， 借 助 vRealize Orchestrator 存 储 厂 商 的 插件 ， 云 服务 架构 师 可 以 为 软件 定义 数据 中 心 提 供 完 整 的 存储 生命 周期 
管理 。 与 开放 存储 置 备 请 求 、 回 答 请 求 问题 并 等 待 不 同 ，STaaS 设 计 可 以 将 存储 资源 置 备 过 程 直接 集成 到 vRealize Automation 
服务 目录 中 ， 并 在 后 台 进 行 审批 流程 和 自动 置 备 。 


9.1 STaaS 服 务 定 》 


存储 即 服 务 (STaaS) 对 不 同 的 人 和 平台 意味 着 不 同 的 东西 。 例 如 ， 亚 马 逊 的 简单 存储 服务 (S3) 可 以 被 视 为 公共 的 STaas 
平台 ， 它 提供 了 一 个 多 租户 存储 环境 。 通 常 ， 缺 少 预算 支出 和 技术 人 员 的 小 型 企业 会 把 它 作 为 实施 和 维护 自己 的 存储 基础 设施 的 
替代 方案 。 公 共 STaaS 平 台 也 被 提升 为 企业 解决 灾难 恢复 风险 的 一 种 方式 ， 提 供 长 期 的 数据 保留 和 归档 解决 方案 ， 解 决 更 多 的 业 
务 连 续 性 和 业务 关键 数据 的 可 用 性 。 此 外 ， 公 有 云 存储 可 以 提供 数据 维护 、 管 理 和 远程 备份 的 服务 模型 ， 然 后 通过 公共 互联 网 向 
最 终 用 户 提供 。 


然而 ， 在 本 章 中 ， 我 们 提 到 的 STaas 与 VMware 的 软件 定义 存储 模型 以 及 软件 定义 的 数据 中 心愿 景 相关 ， 用 于 私有 和 混合 云 
服务 产品 。 这 种 类 型 的 服务 产品 通常 由 企业 内 部 的 上 T 组 织 或 外 部 云 服务 提供 商 来 提供 。 这 种 外 部 云 可 以 为 其 客户 组 织 内 的 各 种 业 
务 线 提供 全 面 管理 的 服务 或 部 分 管理 的 服务 。 


如 前 几 章 所 述 ，IT 组 织 面临 的 主要 挑战 之 一 是 提供 技能 和 运营 资源 ， 以 便 进 行 频繁 的 与 存储 相 天 的 管理 任务 ， 这 些 任务 既是 
必 不 可 少 的 同时 也 是 持续 的 。 另 外 ， 诸 如 缺乏 技能 、 知 识 、 人 为 错误 或 反应 时 间 的 缓慢 ， 都 可 能 会 造成 持续 的 瓶颈 。 这 些 复杂 的 
间 题 可 以 通过 云 平台 解决 方案 来 解决 以 实现 日 常 存储 任务 的 自动 化 。 可 以 通过 使 用 具有 脚本 的 工作 流 引擎 和 云 管 理 平台 来 实现 ， 
该 云 管理 平台 不 仪 可 以 提供 与 最 终 用 户 交互 的 框架 ， 还 可 以 提供 响应 于 预定 义 事件 ， 管 理 、 存 储 和 执行 脚本 以 及 工作 流 的 能 力 。 


提供 STaaS 设 计 的 主要 目的 是 通过 简单 的 自助 服务 门户 实现 自我 置 备 ， 该 门户 具有 与 提供 存储 资源 、 全 自动 置 备 所 需 后 端 存 
储 进行 交互 的 能 力 。 


为 了 使 云 管理 平台 能 够 提供 存储 资源 的 自助 服务 ， 必 须 首先 定义 要 通过 服务 目录 提供 的 存储 服务 。 例 如 ， 可 以 在 一 个 STaaS 
设计 中 包括 诸如 支持 灾难 恢复 、 提 供 服务 质量 或 置 备 数据 存储 的 存储 服务 。 在 vRealize Automation Web 界 面 中 云 服务 使 用 者 
查看 的 云 存储 目录 的 界面 如 图 9-4 所 示 。 


如 本 章 后 面 所 述 ， 这 些 服务 都 是 通过 软件 定义 的 存储 工作 流程 (通过 vRealize Orchestrator) 在 云 管理 平台 的 存储 管理 和 
业务 流程 层 中 启用 的 。 


9.2 ” 云 平台 概述 
云 平 台 不 能 仅仅 通过 部 署 单一 产品 来 交付 ， 尽 管 某 些 供应 商 可 能 会 这 么 告诉 你 。 云 计算 的 目的 是 通过 私有 或 公共 门户 提供 基 
础 设施 技术 资源 并 可 提供 按 需 服务 ， 如 基础 架构 即 服务 (laaS) 、 平 台 即 服务 (PaaS) 或 软件 即 服务 (SaaS) 。 
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图 9-4 vRealize Automation 存 储 服 务 目 录 示 例 


云 提 供 共 享 或 专用 资源 ， 如 应 用 程序 或 数据 平台 。 它 也 可 以 通过 私有 或 公共 网 络 基础 设施 提供 给 终端 用 户 作为 服务 。 图 9-5 
说 明了 传统 云 服 务 产品 的 一 个 视图 ， 这 些 视图 通常 被 视 为 基础 服务 。 


主机 应 用 和 服务 


数据 库 和 开发 工具 
客户 操作 系统 客户 操作 系统 
虚拟 机 虚拟 机 


网 络 、 防 火 墙 和 安全 
物理 数据 中 心 





图 9-5” ”IT 优化 计算 组 件 ， 作 为 服务 提供 
云 计算 服务 可 以 分 为 如 图 9-6 所 示 的 3 个 类 别 。 


基础 设施 即 服务 (laaS) 直接 面向 云 消费 者 提供 计算 资源 ， 如 虚拟 机 。 云 消费 者 使 用 这 些 虚 拟 机 来 部 署 客 户 操作 系统 、 应 用 
程序 、 中 间 件 产品 和 数据 库 。 通 常 云 消费 者 会 认为 这 比 部 署 物理 硬件 舒适 。1aas 平 台 不 会 为 云 消费 者 提供 对 底层 硬件 资源 的 任何 
控制 ， 他 们 必须 通过 客户 的 云 消费 者 门户 网 站 要 求 对 基础 设施 层面 的 平台 进行 更 改 。 


软件 即 服务 ( SaaS ) 


平台 即 服 务 ( PaaS ) 
基础 层 基础 设施 即 服务 〈 IaaS ) 


图 9-6 ”常见 的 云 计算 服务 





平台 即 服务 (PaaS) 在 laas 云 基础 设施 之 上 提供 所 需 的 资源 ， 提 供 消 费 者 开发 的 应 用 、 库 、 服 务 或 其 他 工具 。 在 Paas 平 台 
上 与 laas 平 台 类 似 ， 服 务 使 用 者 无 法 控制 底层 基础 设施 ， 只 能 通过 门户 网 站 向 云 服务 提供 商 提出 更 改 请 求 。 


软件 即 服务 (SaaS) 直接 向 最 终 用 户 提供 已 置 备 的 应 用 程序 ， 它 存放 在 云 平台 上 。 应 用 程序 通常 可 以 通过 符合 公司 安全 策 
略 的 多 种 设备 类 型 或 云 服务 提供 商 SLA 的 安全 组 件 进行 访问 。 最 终 用 户 或 云 消费 者 无 法 控制 底层 硬件 ， 甚 至 软件 ， 但 可 以 通过 其 
消费 者 门户 对 其 云 平台 提供 商 进行 需求 变更 。 


云 计 算 战 略 的 目标 是 使 1T 组 织 或 服务 提供 商 能 够 为 企业 和 个 人 构建 IT 即 服务 解决 方案 。 该 解决 方案 能 够 简单 、 高 效 地 提供 资 
源 ， 而 且 比 传统 方式 的 成 本 更 低 。 


云 服 务 基 本 上 以 以 下 多 种 模式 中 的 一 种 或 多 种 建立 : 
私有 云 
- 公有 云 
“ 混合 云 


私有 云 平台 由 自己 的 IT 组 织 自行 管理 ， 自 行 控制 其 计算 、 存 储 和 网 络 资源 。 而 公有 云 基础 设施 由 第 三 方 云 服务 提供 商 提 供 并 
由 其 管理 ， 第 三 方 云 服务 提供 商 通常 为 其 他 IT 组 织 或 消费 者 提供 其 计算 、 人 存储 和 网 络 资源 的 共享 平台 。 


在 具体 的 存储 资源 方面 ， 私 有 云 服务 提供 了 一 个 在 公司 防火 墙 后 面 受 保护 的 专用 的 环境 。 通 常 使 用 这 些 存 储 服务 的 IT 组 织 需 
要 定制 和 更 多 地 控制 他 们 的 业务 数据 。 公 有 云 存 储 服务 ， 如 Amazon S3， 通 过 Internet 提 供 多 租户 存储 环境 ， 最 常用 于 非 结构 
化 数据 。 


站 点 资源 





昆 合 云 模型 是 将 私有 云 扩展 到 公有 云 实 体 上 ， 如 图 9-7 所 示 。 这 是 市 场 上 最 具 吸 引力 的 云 计算 模式 。 对 于 大 多 数 1T 组 织 的 内 
部 ， 私 有 云 不 能 与 其 他 系统 完全 隔离 。 因 此 ， 无 论 是 在 更 小 或 更 大 程度 上 ， 所 有 私有 云 平台 都 可 以 横向 扩展 到 公有 云 服务 提供 商 
的 数据 中 心 。 


混合 云 存 储 将 这 两 种 模式 结合 起 来 ， 包 括 至 少 一 个 私有 云 和 一 个 公有 云 的 基础 设施 。 例 如 ，IT 组 织 可 能 会 将 私有 云 中 经 常 使 
用 的 结构 化 数据 存储 在 本 地 数据 中 心 存 储 设 备 中 ， 并 将 非 结 构 化 数据 或 不 常 访 问 的 存档 数据 放 在 公有 云 平台 上 。 


IT 即 服务 (ITaaS) 是 另 一 种 云 服 务 模式 : IT 组 织 使 其 业务 线 或 单个 业务 单元 能 够 像 云 服 务 提 供 商 的 消费 者 一 样 运行 。1T 组 
织 作为 一 个 单独 的 实体 ， 在 自己 的 企业 业务 部 门 内 创建 产品 和 服务 ， 将 其 提供 给 内 部 客户 。 向 企业 提供 ITaas 的 主要 目的 是 提供 
以 下 信息 : 


. 提高 可 用 性 


. 提高 可 持续 性 


“ 敏捷 快速 服务 
。 降低 CapEx 和 OpEx 
. 减少 停机 时 间 


通过 私有 云 模型 提供 STaaS 可 以 构成 整个 [Taas 解 决 方案 的 组 件 产品 之 一 ， 提 供给 组 织 内 不 同 的 业务 部 门 。 这 样 的 解决 方案 
将 允许 为 来 自 不 同业 务 部 门 的 单个 IT 用 户 提供 存储 和 其 他 资源 ， 以 促进 各 自 部 门 内 的 IT 需求 。 然 而 ， 如 我 们 上 述说 明 的 那样 ， 构 
建 这 样 的 解决 方案 需要 多 种 可 以 集成 和 定制 的 工具 ， 以 满足 正在 交付 的 存储 服务 的 具体 需求 。 


这 种 类 型 的 CMP 需 要 大 量 的 软件 组 件 在 Cloud Stack 内 一 起 运行 ， 以 便 将 云 存储 目录 提供 给 用 户 。 作 为 架构 师 ， 应 该 充分 了 
解 哪些 软件 组 件 是 必需 的 ， 哪 些 组 件 用 于 哪个 任务 ， 以 允许 云 平台 置 备 和 修改 存储 资源 。 


通过 vRealize Automation 提 供 的 STaas 平 台中 包含 的 组 件 逻辑 架构 概述 ， 如 图 9-8 所 示 。VMware 和 人 存储 供应 商 软件 栈 中 
的 每 个 组 件 都 需要 集成 ， 以 便 为 最 终 用 户 提供 自助 服务 访问 ， 通 过 服务 目录 提供 自动 化 的 存储 服务 。 
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图 9-8 ”STaaS 云 软件 栈 


本 节 的 其 余部 分 以 自 上 而 下 的 方式 来 介绍 每 一 个 软件 组 件 ， 并 提供 对 云 栈 中 所 需 的 每 一 层 的 深入 了 解 。 


9.3.1 vRealize Automation 云 管理 平台 


在 这 个 体系 架构 示例 中 ， 服 务 交付 和 云 管理 层 由 VMware vRealize Automation 平 台 提 供 ， 如 图 9-9 所 示 。 该 平台 用 于 为 最 
终 用 户 创建 、 呈 现 和 执行 存储 服务 目录 。 


vRealize Automation 








高 级 服务 设计 者 应 用 服务 


图 9-9 vRealize Automation 服 务 





vRealize Automation 核 心服 务 


vRealize Automation 提 供 了 一 个 安全 的 基于 Web 的 用 户 界 面 ， 由 已 获得 相应 授权 的 用 户 、 管 理 员 和 开发 人 员 以 请 求 新 的 IT 
服务 或 资源 的 方式 来 使 用 。vRealize Automation 确 保 其 云 服务 消费 者 只 能 请 求 其 符合 IT 合 规 性 、 安 全 性 或 业务 策略 的 资源 。 通 
过 基于 Web 的 门户 ， 可 以 通过 共享 服务 目录 来 请 求 桌面 应 用 程序 、 基 础 设施 或 任意 即 服务 (XaaS) 等 服务 ， 并 且 可 以 由 知道 一 
点 儿 或 完全 不 了 解 T 基 础 架构 的 用 户 批 准 和 置 备 。 


vRealize Automation 还 可 以 通过 展示 所 请 求 资源 的 货币 价值 来 帮助 控制 存储 与 其 他 资源 的 相关 成 本 。 这 简化 了 资源 、 预 算 


和 容量 管理 。 


1.vRealize Automation 目 录 


服务 目录 为 IT 服务 消费 者 提供 了 一 个 集中 的 自助 服务 门户 。 经 过 身份 验证 的 用 户 可 以 查看 目录 项 目 ， 并 根据 需要 请 求 对 应 的 
服务 。 他 们 还 可 以 通过 vRealize Automation 的 审批 机 制 跟踪 他 们 的 请 求 ， 并 在 其 生命 周期 内 管理 自己 的 置 备 服务 。 


云 服 务 架构 师 的 职责 是 定义 新 服务 并 将 其 发 布 到 服务 目录 中 ， 使 用 自 定义 表单 来 收集 置 备 这 些 资源 所 需 的 独特 信息 。 
vRealize Automation 还 可 以 提供 其 他 基于 目录 的 功能 ， 其 中 包括 : 


. 请 求 和 管理 目录 中 的 项 目 
. 创建 和 发 布 目录 项 
. 提供 自 定义 操作 和 权限 


这 些 基 于 目录 的 服务 可 以 在 虚拟 和 物理 基础 架构 上 提供 服务 器 、 桌 面 、 存 储 或 一 切 皆 服务 。 对 于 服务 器 置 备 ，VRealize 
Automation 目 录 通 过 创建 系统 蓝图 来 提供 所 需 虚 拟 机 的 特性 ， 蓝 图 随后 作为 服务 目录 中 的 目录 项 发 布 。 当 云 消费 者 请 求 系统 
时 ，vRealize Automation 人 允许 消费 者 根据 原始 请 求 来 管理 置 备 实体 的 完整 生命 周期 。 


正如 我 们 所 提 到 的 ，vRealize Automation 还 提供 XaaS。 这 种 方法 是 指 通 过 vRealize Automation 云 管理 平台 和 vRealize 
Orchestrator 相 结合 来 提供 日 益 多 元 化 的 服务 。 


2. 提 供 一 切 皆 服务 


vRealize Automation 平 台 的 目标 是 能 够 按 需 提供 任何 IT 服务 ， 并 提供 向 导 驱 动 的 高 级 服务 设计 (Advanced Service 
Designer，ASD) 作为 它 的 一 个 主要 机 制 来 实现 这 一 目标 。 


如 图 9-10 所 示 ，ASD 提 供 配 置 其 他 定制 服务 ， 提 供 个 性 化 和 与 业务 相关 自动 化 功能 的 能 力 。 例 如 ， 假 设 云 服务 架构 师 希 望 
通过 vRealize Automation 提 供 其 他 IT 服务 ， 而 这 些 服务 并 不 是 开 箱 即 用 的 ， 这 些 服务 可 能 包括 通过 与 Microsoft Active 


Directory 和 Exchange 进 行 交 互 来 配置 新 账户 (除了 其 他 必需 的 任务 之 外 ) 或 置 备 新 的 存储 产品 (如 存储 容器 或 旧 存 储 LUN) ， 
以 自动 传送 与 雇用 新 员工 相关 的 所 有 任务 。 这 些 通常 可 以 通过 ASD 功 能 来 自动 化 完成 。 


vRealize Automation 





自助 服务 
基于 策略 的 治理 和 自动 化 交付 机 制 


密码 管理 人 ss 安 备份 & 恢 复 网 络 服务 


请 求 批准 服务 存储 即 服务 电子 邮件 和 邮箱 管理 新 员工 服务 软件 更 新 服务 





图 9-10 ”高 级 服务 设计 能 力 示例 


通过 使 用 vRealize Automation 的 ASD 功 能 ， 云 服务 架构 师 可 以 基于 vRealize Orchestrator 对 象 类 型 开发 出 定制 的 IT 服务 ， 
并 将 其 配置 为 可 以 置 备 的 项 目 。 从 这 些 对象 中 ， 云 服务 架构 师 可 以 通过 vRealize Orchestrator 工 作 流程 开发 设计 蓝图 。 最 后 ， 
从 这 些 开发 的 工作 流程 ， 云 服务 架构 师 可 以 开发 定制 服务 并 将 其 置 备 为 目录 项 。 通 过 使 用 此 工作 流程 机 制 ，vRealize 
Automation 在 与 vRealize Orchestrator 结 合 使 用 时 ， 可 以 通过 自助 服务 目录 项 来 提供 XaaS 服 务 。 


ASD 向 导 可 以 用 来 设计 通过 自动 化 传递 自 定义 服务 的 端 到 端 过 程 。 然 后 ， 这 些 自 定义 服务 (或 XaaS) 将 与 其 他 应 用 程序 基 
于 平台 或 基于 基础 设施 的 服务 一 起 发 布 到 vRealize Automation 服 务 目 录 。ASD 向 导 人 允许 云 服 务 架构 师 通过 执行 以 下 操作 来 定义 
服务 交付 能 力 、 用 户 交 互 和 服务 权限 。 


允许 定义 可 用 于 传递 服务 的 工作 流 。 这 可 能 包括 现 有 的 工作 流程 、 插 件 和 自 定 义 脚本 。 
“ 使 用 基于 向 导 的 方法 来 填充 服务 请 求 ， 使 用 简单 易 用 的 表单 来 收集 工作 流 所 需 的 信息 ， 以 便 提供 所 请 求 的 服务 。 
. 定义 服务 权限 ， 包 括 任 何必 要 的 工作 流 审批 人 ， 如 经 理 或 IT 决策 者 。 


本 章 稍 后 讨论 的 关键 组 件 是 存储 供应 商 提供 的 工作 流 和 插件 ， 并 结合 AsD 来 快速 部 署 新 存储 相关 的 服务 。 然 而 ， 即 使 没有 合 
作 伙 伴 提供 的 vRealize Orchestrator 插 件 ， 也 是 可 以 实现 存储 服务 自动 化 ， 只 是 这 些 服务 会 受 云 服务 架构 师 想象 力 或 云 服务 运 
营 和 开发 团队 技能 的 限制 ， 如 图 9-11 所 示 。 


工作 流 设 
云 服务 开发 者 | 





自动 交付 流程 >> 定义 请 求 表单 >> 配置 管理 策略 





1. 定 义工 作 流 1. 建 议 表单 输入 / 输 1. 服 务 的 权利 
2. 利 用 vRO 工作 流 出 采用 vRO 工作 2. 批 准 
和 插件 库 流程 
2. 每 个 定制 


图 9-11 高 级 服务 设计 器 工作 流 示例 


9.3.2 vRealize Orchestrator 


VMware vRealize Orchestrator 提 供 了 拖拉 方式 工作 流 引 擎 ， 以 简化 服务 产品 的 自动 化 和 集成 。 该 软件 还 允许 云 服务 开发 
人 员 通 过 使 用 其 工作 流 设计 器 来 创建 复杂 的 自动 化 任务 。 这 些 已 开发 的 工作 流程 可 以 直接 从 vSphere Web Client、vRealize 
Automation 或 其 他 多 种 集成 应 用 程序 和 云 管理 平台 执行 。 


在 STaaS 设 计 中 ，vRealize Orchestrator 通 过 将 云 管理 平台 与 存储 供应 商 提 供 的 插件 相 结 合 ， 便 于 基于 存储 的 工作 流 ， 人 允许 
日 常 流程 自动 化 的 加 速 及 简化 操作 。 此 外 ， 通 过 使 用 vRealize Orchestrator 来 提供 基于 云 的 IT 服 务 ， 可 以 减少 IT 运 营 支 出 。 这 降 
低 了 解决 方案 的 总 体 拥有 成 本 ， 并 加 快 了 向 提供 ITaaS 运 营 模 式 的 转型 。 


正如 我 们 所 说 ，vRealize Orchestrator 旨 在 允许 vSphere 系 统管 理 员 和 云 服务 运营 人 员 通 过 自动 化 简化 任务 ， 并 通过 各 种 机 
制 与 第 三 方 提供 商 集 成 解决 方案 。 为 了 方便 这 一 点 ，vRealize Orchestrator 包 括 以 下 工作 流程 开发 和 管理 功能 。 


1) 工作 流 设计 器 : 工作 流 设计 器 通过 拖拉 界面 实现 简单 或 复杂 的 工作 流 创建 。 
2) 工作 流 引擎 : 工作 流 引 警 通 过 使 用 创建 的 构建 块 或 使 用 第 三 方 插件 来 创建 工作 流 。 


3) 脚本 引擎 : vRealize Orchestrator 提 供 了 一 个 脚本 引 警 作 为 在 整个 平台 上 创建 新 的 构建 块 操 作 、 工 作 流 和 策略 的 机 制 。 
脚本 引擎 还 提供 基本 版 本 控制 、 命 名 空间 管理 、 变 量 类 型 检查 和 有 异常 处 理 。 


4) 工作 流 库 : vRealize Orchestrator 部 署 了 一 个 开 箱 即 用 的 工作 流 库 ， 提 供 了 很 多 功能 ， 如 下 所 示 。 


. 编排 组 虚拟 机 快照 





* 提供 事件 的 电子 邮件 通知 ， 例 如 关闭 虚拟 机 


5) 内 置 版 本 控制 : vRealize Orchestrator 工 作 流 包括 版 本 历史 记录 、 打 包 和 回 滚 功 能 。 这 些 功 能 可 以 在 开发 生命 周期 以 及 
工作 流 创建 的 各 个 阶段 促进 变更 管理 。 


6) 检查 点 内 容 数据 库 : 工作 流 的 每 个 部 分 都 保存 在 内 容 数据 库 中 。 此 功能 使 得 即使 服务 器 重新 启动 ， 也 不 会 丢失 工作 流 中 


的 状态 和 情境 ， 这 对 于 长 时 间 运 行 的 复杂 流程 特别 有 用 。 
7) 中 央 管 理 : vRealize Orchestrator 提 供 了 一 个 集中 的 机 制 来 管理 流程 ， 确 保 运营 团队 使 用 正确 的 脚本 来 控制 版 本 。 


8) 诊断 和 故障 排除 : vRealize Orchestrator 客 户 端 提供 调试 和 错误 诊断 功能 ， 以 便 为 工作 流 开发 人 员 提 供 简 单 而 高 效 的 用 
户 体验 。 


9) 软件 开发 工具 包 : vRealize Orchestrator 的 SDK 插 件 不 仅 可 为 经 验 不 足 的 开发 人 员 提 供 起 点 ， 也 可 使 高 级 开发 人 员 将 
SDK 功 能 集成 到 其 工作 流 中 。SDK 由 以 下 部 分 组 成 。 


" 用 于 vRealize Oftchesttator 揪 件 开 发 的 Eclipse 附加 组 件 
. 命令 行 实用 程序 

开发 者 指南 

. 最 佳 实践 指南 

示例 插件 


10) 性 能 和 可 扩展 性 : vRealize Orchestrator 可 以 在 最 小 或 扩展 的 分 布 式 架构 上 执行 数 干 个 并 发 工作 流 。 通 过 使 用 集群 功 
能 ， 云 服务 架构 师 可 以 通过 web-scale 的 可 扩展 性 在 全 球 范围 内 规划 vRealize Orchestrator 的 部 署 。vRealize Orchestrator 集 群 
与 外 部 负载 均衡 器 一 起 使 用 时 ， 还 可 以 提供 更 高 的 可 用 性 ， 并 允许 动态 放大 和 缩小 编排 能 力 。 另 外 ， 通 过 使 用 集群 体系 结构 ， 如 
果 一 个 vRealize Orchestrator 服 务 器 在 执行 工作 流 期 间 变 得 不 可 用 ， 则 不 同 的 节点 可 以 在 不 中 断 服 务 的 情况 下 完成 流 编排 任 
务 。 


11) 公 钥 基础 设施 : vRealize Orchestrator 提 供 内 部 公 钥 基础 设施 (PKI) ， 用 于 对 在 服务 器 之 间 导 入 或 导出 的 内 容 进行 签 
名 和 加 密 。 


12) 数字 版 权 管 理 : vRealize Orchestrator 提 供 数字 版 权 管理 (DRM ) 机 制 来 控制 导出 的 内 容 如 何 被 查看 、 编 辑 或 分 发 。 


13) 安全 套 接 字 层 : vRealize Orchestrator 使 用 客户 端 和 服务 器 之 间 的 加 密 通信 ， 并 提供 客户 端 通过 HTTPSs 访 问 Web 用 户 
界面 。 


14) 高 级 访问 与 权限 管理 : vRealize Orchestrator 内 置 权 限 管理 系统 提供 对 进程 和 对 象 访问 的 控制 |。 


— 


15) 云 就 绪 : vRealize Orchestrator 提 供与 vSphere、vCloud Director、vRealize Operations Manager 和 vRealize 
Automation 的 深度 集成 。 这 种 深层 次 的 产品 集成 使 得 云 服 务 架 构 师 和 开发 人 员 能 够 在 其 环境 中 实现 几乎 任何 任务 或 流 的 自动 
化 。 


16) 生态 系统 感知 : 发 布 的 插件 和 工作 流 可 以 从 VMware 的 在 线 解决 方案 交流 平台 和 第 三 方 独立 软件 供应 商 (1ISV) 处 获 


李 
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17) 虚拟 设备 部 署 : vRealize Orchestrator 通 过 预先 打包 的 虚拟 设备 来 提供 简单 的 部 署 。 这 种 方法 明显 降低 了 部 署 基础 架 
构 所 需 的 技能 水 平 ， 并 且 不 需要 Microsoft Windows 许 可 证 ， 进 而 降低 了 成 本 。 


18) REST API: vRealize Orchestrator 提 供 了 一 个 REST API， 以 使 其 他 应 用 程序 能 够 执行 工作 流 。 该 REST API 支 持 增强 的 
JavaScript 对 象 表示 法 (JSON) 来 支持 和 简化 与 vCenter 单 一 登录 (SSO) 的 集成 。 这 种 集成 也 有 助 于 快速 部 署 vRealize 
Orchestrator 实 例 测试 和 开发 的 目的 ， 以 及 随 着 需求 的 增加 扩大 自动 化 的 能 力 。 


9.3.3 ”存储 供应 商 的 第 三 方 插件 支持 


第 三 方 存储 供应 商 通常 提供 vRealize Orchestrator 插 件 以 在 其 产品 中 支持 STaaS 功 能 。 大 多 数 情 况 下 ， 这 大 大 简化 了 设计 解 
决 方案 所 需 的 开发 和 脚本 编写 的 工作 量 。 因 此 ， 尽 管 它 们 不 是 向 企业 IT 组 织 或 服务 提供 商 提 供 STaas 设 计 的 基本 先决 条 件 ， 但 它 
们 应 该 可 以 大 大 降低 建设 和 维护 基于 存储 服务 目录 相关 的 开发 和 运营 开销 。 


供应 商 存 储 插件 软件 是 用 于 连接 存储 服务 目录 所 需 的 关键 组 件 。VMware vRealize Orchestrator 人 允许 云 服务 开发 人 员 通 过 
自动 化 工作 流 功能 发 现存 储 和 置 备 能 力 。 通 常 作 为 供应 商 插件 的 一 部 分 ， 在 安装 和 配置 软件 包 后 提供 预先 定义 的 工作 流 可 以 在 
vRealize Orchestrator 工 作 流 库 中 使 用 。 云 服务 架构 师 和 开发 人 员 可 以 通过 vRealize Automation 使 用 这 些 工作 流 来 设计 服务 蓝 
图 。 设 计 过 程 可 能 包括 执行 以 下 操作 : 


. 创建 新 的 VMFS 数 据 存 储 

* 扩展 VMFS 数 据 存 储 

“ 删除 VMEFS 数 据 存 储 

* 创建 新 的 Vittual Volumes 数 据 存 储 

. 将 Virtual SAN 主 机 添加 到 vSAN 集 群 中 


因此 ， 工 作 流 成 为 编排 和 自动 化 层 (在 本 设计 示例 中 ， 是 vRealize Orchestrator 和 vRealize Automation) 所 调用 的 基础 构 
建 块 。 这 意味 着 这 些 工作 流 是 设计 和 构建 STaaS 目 录 所 需 的 主要 组 成 部 分 。 


存储 供应 商 插件 程序 包 通 常 可 以 从 VMware Solution Exchange (https://marketplace.vmware.com) 、 硬 件 供 应 商 的 网 
站 或 第 三 方 独立 软件 供应 商 的 网 站 下 载 。 


通过 使 用 工作 流 来 执行 日 常 运 营 存 储 任务 ， 而 不 是 由 运 维 团 队 每 次 手动 发 布 存储 操作 ， 管 理 员 可 以 直接 从 vRealize 
Orchestrator 或 通过 vRealize Automation 云 管理 平台 来 预先 计划 和 自动 执行 平台 内 的 存储 运营 。 通 过 提供 这 种 端 到 端的 存储 资 
源 的 高 效 置 备 ， 可 以 减少 运营 开销 、 简 化 环境 管理 ， 如 图 9-12 所 示 。 


0 云 服务 开发 者 vRealize Automation 
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图 9-12 工作 流 逻 辑 配 置 示例 


9.4 组 合 解决 方案 枝 


本 章 描述 的 vRealize 解 决 方案 需要 vRealize Orchestrator、vRealize Automation、 供 应 商 插件 和 存储 硬件 之 间 的 紧密 集 
成 ， 以 提供 该 软件 定义 的 云 解决 方案 。 这 种 集成 至 关 重要 ， 必 须 扩展 到 服务 展示 、 交 付 、 管 理 、 编 排 、 自 动 化 和 硬件 ， 以 支持 
STaas 的 环境 描述 。 此 外 ，STaas 平 台 为 运营 团队 及 其 最 终 消费 者 提供 最 大 的 利益 ， 因 此 它 必 须 能 够 管理 折 有 相关 的 基础 架构 组 
件 。 


作为 STaaS 设 计 一 部 分 的 工作 流程 可 能 还 需要 与 其 他 元 素 进行 交互 ， 例 如 在 其 上 创建 端口 组 的 分 布 式 虚拟 交换 机 或 配置 管理 
数据 库 (CMDB) 。 这 些 设置 通常 是 作为 配置 或 资源 元 素 存 储 在 vRealize Orchestrator 服 务 器 上 的 固定 值 。 还 可 以 从 CMDB 检 
索 其 他 资源 元 素 ， 例 如 可 用 VLAN 1D 或 可 用 IP 地 址 列表 。 


9.5 工作 流 示例 


在 以 下 示例 中 ， 使 用 工作 流 自动 执行 重复 的 存储 操作 任务 。 这 些 工 作 流 可 以 由 IT 组 织 内 的 自动 化 开发 人 员 构 建 。 或 者 ， 可 以 
使 用 供应 商 提供 的 预先 存在 的 工作 流 或 与 定制 的 自动 化 操作 相 结合 ， 以 达到 预期 的 效果 。 


可 以 组 合 或 修改 工作 流 以 创建 更 高 级 的 操作 ， 也 可 以 由 集成 的 vRealize Automation 云 管理 平台 用 作 存 储 服务 蓝图 。 存 储 云 
服务 蓝图 一 旦 创建 ， 就 成 为 可 用 于 验证 用 户 完 成 操作 任务 的 存储 服务 目录 项 目 。 


例如 ， 图 9-13 中 的 工作 流 示例 使 用 单一 形式 来 置 备 基于 NAs 的 存储 设备 。 





否 


图 9-13 STaaS NAS 表 单 设计 


此 外 ， 可 能 需要 一 个 表单 来 修改 对 基于 IP 的 存储 的 访问 。 此 高 级 过 程 可 能 需要 集成 多 个 工作 流 ， 以 及 多 个 自 定义 脚本 ， 如 图 
9-14 所 示 。 
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图 9-14 STaaS NAS 访 问 权 限 修 改 


在 确定 所 需 的 服务 类 型 之 前 ， 此 工作 流 首先 验证 目录 项 目 状态 ， 以 确保 其 继续 执行 后 续 操 作 的 可 用 性 。 
1) 对 于 iSCSI 存 储 ， 此 工作 流 提供 基于 IQN 的 当前 存储 访问 权限 。 云 服务 运营 商 可 以 修改 列 出 的 值 。 


2) 对 于 NFS 存 储 ， 云 服务 运营 商 可 以 选择 “全 部 访问 ” 值 ， 提 供 从 任何 IP 地 址 范围 对 存储 的 访问 ， 或 者 采用 更 确定 性 的 方 
法 ， 通 过 使 用 现 有 访问 卷 来 修改 当前 IP 地 址 范围 。 


3) 对 于 CIFS 存 储 ， 云 服务 运营 商 可 以 修改 CIFS 服 务 器 或 当前 置 备 为 该 卷 的 访问 权限 的 Microsoft Active Directory 组 的 用 
户 密码 。 


4) 最 后 ， 向 请 求 者 发 送 一 封 电子 邮件 ， 根 据 他 们 的 操作 请 求 通知 他 们 更 改 已 完成 。 


9.6 小 结 


软件 定义 的 存储 为 IT 组 织 提供 了 一 种 存储 即 服务 的 方法 ， 在 行业 内 获得 了 很 多 关注 。vRealize Automation 为 启用 软件 定义 
的 云 存 储 平台 提供 了 理想 的 框架 ,将 STaaS 提 供给 IT 组 织 ， 以 简化 日 常 运作 并 降低 成 本 。vRealize Orchestrator 工 作 流 是 使 用 
vRealize Automation 为 |T 组 织 或 服务 提供 商 提 供 有 效 管理 和 交付 存储 资源 的 关键 。 


vRealize Orchestrator 的 存储 供应 商 插 件 是 允许 VMware 平 台 集成 和 管理 存储 基础 架构 的 关键 组 件 ， 并 允许 云 服务 架构 师 
控制 跨 后 端 磁盘 系统 交付 已 定义 的 存储 资源 。 


在 企业 IT 组 织 或 服务 提供 商 环 境 中 ， 提 供 STaas 的 主要 目标 之 一 是 设计 一 种 可 以 为 多 个 存储 供应 商 提供 存储 资源 并 提供 支持 
的 解决 方案 ， 并 可 通过 单一 界面 进行 操作 管理 ， 简 化 操作 和 快速 交付 新 的 vsphere 部 署 。 然 而 ， 在 混合 供应 商 环 境 中 从 所 有 人 存储 
系统 收集 硬件 系统 组 件 信息 ， 并 将 其 提供 给 VMware 云 平 台 进行 管理 ， 从 而 实现 跨 该 异 构 基础 架构 的 存储 系统 执行 任务 ， 软 件 定 
义 存 储 模型 是 巨大 的 挑战 ， 需 要 架构 师 有 远见 才能 完成 。 不 过 ， 这 种 云 管理 平台 会 提供 本 章 中 描述 的 长 期 运营 效益 ， 如 运营 效 
率 、 简 化 和 自助 服务 框架 。 


第 10 章 ”监控 和 仓储 运 维 设计 


作为 一 名 能 够 设计 消除 所 有 单 点 故障 ， 并 具有 弹性 的 数据 中 心 的 架构 师 ， 其 下 一 个 挑战 将 是 确保 存储 平台 的 各 大 组 件 可 以 按 
照 其 期 望 的 可 用 性 运行 ， 满 足 业 务 所 需 的 服务 级 别 。 实 现 这 一 目标 的 主要 机 制 是 对 数据 中 心 存储 组 件 进行 连续 性 和 一 致 性 的 监 
控 ， 以 便 能 及 时 地 解决 问题 和 错误 。 


10.1 存储 监控 


监控 存储 系统 的 端 到 端 对 于 所 有 IT 组 织 至 关 重 要 ， 其 目 是 确保 底层 平台 7x24 地 稳定 运行 。 此 外 ， 任 何 监控 解决 方案 都 应 确 


保 所 有 组 件 都 经 过 优化 以 满足 主要 业务 目标 ， 使 关键 应 用 程序 在 执行 其 工作 所 需 活动 时 ， 向 用 户 提供 一 致 可 用 性 的 体验 。 为 了 达 
到 这 个 目的 ， 应 该 对 vsphere 主 机 、 网 络 系统 和 存储 设备 都 进行 监控 ， 以 便 提 供 系统 工作 负载 、 利 用 率 、 运 行 状 况 、 性 能 、 安 全 
性 和 容量 指标 。 这 些 指标 则 提供 了 所 需 相关 数据 ， 不 仅 执 行 补 救 任务 ， 同 时 也 应 主动 响应 。 


随 着 业务 数据 发 展 趋势 ， 每 两 年 左右 所 需 容量 将 会 提高 一 倍 ， 所 以 自动 化 监控 和 警示 解决 方案 越 来 越 重要 。 此 外 ， 密 切 监控 
数据 中 心 基础 架构 能 够 优化 数据 中 心 的 运营 ， 并 有 助 于 避免 停机 。 当 设计 数据 中 心 存储 监控 解决 方案 时 ， 你 应 该 考虑 以 下 几 点 : 


1) 可 用 性 。 为 了 提供 连续 稳定 的 正常 运行 ， 并 提供 警告 和 错误 警报 ,确保 问题 可 以 得 到 主动 纠正 。 


2) 可 扩展 性 。 为 了 确保 监控 解决 方案 可 以 用 于 容量 规划 和 趋势 分 析 ， 它 可 以 提供 必要 的 指标 和 元 数据 ， 以 便 随 着 业务 数据 
需求 增长 的 比例 来 规划 存储 扩展 的 解决 方案 。 


3) 和 警报。 一 个 天 键 设计 因素 是 确保 警报 机 制 可 用 于 将 故障 和 潜在 的 故障 通知 给 运 维 团队 。 这 种 方法 允许 采取 适当 的 纠正 措 
施 ， 以 保证 可 用 性 不 受 影响 。 


为 了 使 端 到 端的 存储 监控 有 效 ， 数 据 中 心 内 所 有 主要 部 件 都 应 作为 设计 的 一 部 分 ， 如 每 个 组 件 都 要 进行 健康 、 容 量 、 性 能 和 
安全 性 的 监控 。 组 件 将 根据 设计 中 采取 的 存储 方法 不 同 而 不 同 ， 但 可 能 包括 诸如 以 下 各 项 : 


. 存储 网 络 ， 包 括 光纤 通道 和 基于 IP SAN 或 NAS 的 IP 网 络 

. 存储 阵列 及 其 各 种 硬件 组 件 

. 起 融合 基础 架构 (HCI) 主机 、 磁 盘 、 控 制 器 和 其 他 硬件 存储 应 用 程序 的 软件 和 固件 
. 存储 应 用 软件 和 国 件 


通过 连续 监测 这 些 数 据 中 心 和 应 用 程序 组 件 的 健康 、 容 量 、 性 能 和 安全 ， 应 有 可 能 确保 可 用 性 和 可 扩展 性 的 业务 天 键 数据 ， 
通过 通知 将 警示 组 件 信息 告知 相应 的 业务 人 员 ， 并 通过 业务 仪表 板 展示 相关 的 趋势 、 利 用 数据 和 报告 。 将 这 种 机 制作 为 存储 设计 
的 一 部 分 ， 使 IT 组 织 和 他 们 的 运 维 团队 可 以 迅速 采取 纠正 行动 ， 从 而 不 会 违反 SLA 原 则 。 


10.1.1 ”监控 组 件 的 健康 状况 


健康 监测 提供 特定 存储 组 件 或 软件 状态 的 可 用 性 信息 ， 例 如 : SAN 设 备 ， 如 HBA 状 态 或 磁盘 故障 状态 。 


单个 组 件 的 健康 状况 很 重要 ， 因 为 存储 平台 或 数据 路 径 中 ， 任 何 硬 件 或 软件 元 素 的 故障 都 可 能 导致 更 多 组 件 的 中 断 。 例 如 ， 
一 个 HBA 出 现 问题 ， 可 能 会 导致 对 多 个 存储 设备 的 访问 降级 ， 即 使 在 多 路 径 的 环境 下 ， 也 有 可 能 导致 单 路 径 环境 下 设备 的 访问 
完全 形 失 。 因 此 ， 监 控 健 康 是 管理 团队 很 容易 理解 和 可 量化 的 、 失 败 的 组 件 ， 除 非 存 在 元 余 ， 否 则 会 导致 数据 的 损坏 或 丢失 。 


监控 数据 中 心 内 存储 组 件 的 健康 状况 是 非常 重要 的 ， 对 容量 、 性 能 和 安全 的 健康 状况 取决 于 整体 系统 及 其 组 件 的 可 用 性 。 即 
使 业务 不 执行 其 他 存储 监控 ,但 至 少 应 实施 健康 监测 ， 并 且 与 健康 相关 联 的 问题 应 作为 运营 团队 中 最 高 的 优先 级 。 


re ED 


10.1.2 ”监控 容量 


容量 监控 的 主要 目的 是 提供 一 个 给 定时 间 内 可 用 存储 资源 的 视角 ， 至 少 包括 将 存储 容量 作为 其 监控 范围 的 一 部 分 。 其 应 包括 


以 下 因素 : 
. 文件 系统 、 数 据 存 储 或 物理 磁盘 池上 可 用 容量 和 已 用 容量 
. 每 个 存储 阵列 或 HCI 上 启用 Virtual SAN 集 群 的 可 用 磁盘 容量 
“ 在 SAN 结 构 或 IP 网 络 交换 机 上 的 可 用 端口 数 
“ 存储 容量 增长 的 要 求 或 速度 ， 所 选 解决 方案 的 可 扩展 性 以 及 业务 需求 对 数据 增长 的 要 求 


缺乏 适当 的 监控 和 容量 规划 可 以 导致 数据 变 得 不 可 用 ， 并 且 也 无 法 进行 扩展 。 对 于 正在 使 用 所 有 存储 资源 ， 以 及 提供 趋势 报 
告 是 至 关 重 要 的 ， 这 有 利于 在 发 生 故 障 之 前 进行 预测 ， 以 防止 中 断 。 


总 体 目标 是 创建 一 个 主动 防御 和 预测 的 健康 指标 ， 而 不 是 被 动 式 的 。 例 如 ， 应 向 决策 者 提供 关于 存储 平台 当前 的 趋势 报告 ， 
如 : 应 确保 业务 部 门 知 道 90% 的 数据 存储 已 满 ， 以 及 数据 存储 的 利用 容量 以 特定 速率 增加 。 


同样 ，IT 管 理 者 应 该 清楚 地 意识 到 SAN 架 构 中 95% 的 端口 已 被 占用 ， 如 果 要 增加 更 多 阵列 或 主机 服务 器 ， 则 需 考虑 购买 新 交 
换 机 的 预算 。 


10.1.3 ”监控 存储 性 能 
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性 能 监控 用 于 确保 整个 存储 平台 内 组 件 的 有 效 运作 。 这 种 类 型 的 监控 包括 : 监控 存储 阵列 前 端 端口 的 MO 数量 ， 网 络 连接 交 
换 机 的 带宽 利用 率 或 Virtual SAN 磁 盘 组 中 闪存 设备 能 处 理 写 1/0 的 数据 量 ， 以 及 应 用 程序 的 响应 时 间 。 


通常 通过 几 个 关键 指标 来 监控 性 能 。 通 常用 吞吐 量 、 延 迟 和 每 秒 MO (IOPS) 这 3 个 衡量 指标 来 评估 大 多 数 时 候 的 可 扩展 性 
和 性 能 。 正 如 我 们 在 前 几 章 中 所 表述 的 一 样 ，IOPSs 也 在 存储 设计 的 各 个 方面 起 着 很 重要 的 作用 。 


IOPS 是 最 常用 来 衡量 存储 系统 后 端 磁盘 或 整个 阵列 性 能 的 标准 。 在 最 基本 的 情况 下 ，IOPS 是 指 读 或 写 的 次 数 。 可 以 根据 诸 
如 系统 的 读 写 操作 来 平衡 因素 ， 在 存储 设备 上 实现 不 同 的 IOPS 级 别 ， 如 是 否 为 顺序 、 随 机 或 者 混合 ， 以 及 I/O 块 大 小 。 


考虑 IOPs 的 吞吐 量 也 是 一 种 常见 的 做 法 。 两 者 都 会 影响 性 能 ， 只 是 展示 方式 不 同 。 例 如 ， 一 个 100MB/s 的 低 吞 吐 量 的 应 用 
程序 可 能 要 求 VO 为 20000IOPS。 尽 管 这 可 能 不 会 导致 带宽 问题 ， 但 可 能 会 使 仓储 阵列 的 控制 器 面临 巨大 的 压力 。 


同样 ， 不 同 的 应 用 程序 可 能 会 产生 较 低 的 IOPS， 但 在 同一 时 间 产 生 显 著 的 吞吐 量 ， 例 如 : 持续 的 数据 读 取 周期 ， 从 而 使 
SAN 架 构 面临 巨大 压力 。 


吞吐 量 表示 每 个 数据 单元 传输 的 数据 量 ， 通 常 以 每 秒 多 少 MB (MB/s) 为 单位 。 存 储 平台 可 以 实现 的 吞吐 量 级 别 将 取决 于 
硬件 和 软件 各 自 相关 因素 。 可 以 直接 影响 存储 吞吐 量 的 最 主要 要 素 包括 以 下 内 容 : 


" 链接 速度 ， 如 光纤 通道 链 路 速度 
. 未 完成 的 IO 请求 的 水 平 

` 磁盘 数量 ， 特 别 是 机 械 磁 盘 

* RAID 使 用 类 型 


. SCSI 预 留 


. 缓存 或 预 热 算法 和 技术 


延迟 时 间 是 指 完成 MO 请 求 所 需 的 时 间 ， 通 常 以 毫秒 (ms) 为 单位 。 由 于 存储 为 多 层 堆栈 遍历 数据 ， 因 此 每 个 层 都 会 对 每 个 
I/O 请 求 施加 该 层 的 延迟 。 影 响 延 迟 的 主要 因素 包括 以 下 内 容 : 


队列 深度 

I/O 请 求 大 小 

:磁盘 硬件 属性 ， 如 转速 、 寻 道 时 间 和 访问 延迟 
` 容量 

. SCSI 预 贸 

: 缓存 或 预 热 算法 和 技术 


监控 IOPS 吞 吐 量 和 延迟 ， 其 相关 衡量 指标 数据 主要 目的 是 确保 存储 组 件 可 以 对 该 环境 有 效 和 最 佳 地 工作 ， 并 且 还 提供 存储 
堆栈 中 任何 元 素 的 可 见 性 。 此 外 ， 在 某 些 情况 下 对 这 些 衡量 指标 的 监控 ， 可 以 识别 出 存储 组 件 是 否 被 充分 利用 ， 或 者 是 否 具 有 足 
够 的 可 用 资源 来 提供 额外 的 工作 负载 。 


监控 传统 存储 阵列 系统 的 性 能 问题 和 其 他 问题 可 能 很 复杂 ， 通 常 被 视 为 数据 中 心 运 维 中 最 困难 的 。 这 种 类 型 的 监控 通常 需要 
熟悉 该 供应 商 的 硬件 的 、 训 | 练 有 素 的 人 员 ， 来 确定 性 能 瓶颈 和 操作 问题 。 


10.1.4 监控 安全 


安全 监控 用 于 防止 和 追踪 对 存储 平台 未 经 授权 的 访问 ， 无 论 其 是 意外 还 是 恶意 。 安 全 监控 设计 中 所 需 的 安全 监控 级 别 通 常 取 
决 于 业务 类 型 和 必须 满足 的 监管 要 求 。 然 而 ， 对 于 越 来 越 多 的 企业 来 说 ， 执 行 安 全 监控 和 识别 安全 漏洞 正在 成 为 当务之急 。 人 存储 
安全 监控 将 至 少 包括 以 下 内 容 : 


:多 次 的 登录 失败 

" 未 经 授权 访问 存储 阵列 

“ 未 经 授权 的 配置 或 重新 配置 存储 硬件 

对 存储 在 物理 数据 中 心 的 数据 ， 通 过 读 卡 器 、 生 物 特征 扫描 和 视频 监控 系统 的 物理 访问 
“ 未 经 授权 访问 的 存储 网 络 连接 

“ 未 经 授权 的 在 SAN 环 境 下 进行 Zone 的 划分 或 对 现 有 Zone 配置 的 更 改 ， 以 及 LUN Masking 


此 外 ， 应 严密 监控 未 经 授权 人 员 在 主机 服务 器 或 存储 设备 上 执行 代码 ， 或 对 启动 应 用 程序 的 登录 尝试 和 失败 ， 以 确保 安全 操 
作 。 


虽然 登录 失败 通常 是 偶然 的 错误 行为 ， 但 也 可 能 是 故意 在 主机 服务 器 或 存储 设备 上 尝试 执行 代码 或 启动 应 用 程序 。 大 多 数 存 
储 系统 只 允许 两 次 或 三 次 连续 的 登录 失败 后 ， 就 不 再 允许 尝试 登录 。 在 大 多 数 环境 中 ， 这 些 信息 将 被 写 入 日 志文 件 ， 但 也 可 能 永 
远 不 会 被 监控 。 然 而 ， 在 越 来 越 多 的 企业 IT 环 境 和 云 服 务 提供 商 网 络 运 营 中 心 (NOC) 中 ， 正 在 监控 此 类 安全 事件 ; 如 果 发 生 3 


次 或 更 多 次 的 连续 的 登录 失败 ， 则 向 安全 管理 员 发 送 一 条 可 能 导致 安全 威胁 的 警告 。 


10.2 ”存储 组 件 监控 


正如 我 们 已 经 讨论 的 那样 ， 存 储 组 件 监控 是 数据 中 心 运 维 的 关键 部 分 ， 并 且 是 为 了 确保 应 用 程序 正常 运行 所 必需 的 。 此 外 ， 
我 们 已 经 确定 了 任何 存储 操作 设计 的 关键 领域 ， 至 少 包括 : 健康 、 容 量 、 性 能 和 安全 性 。 


然而 ， 正 如 我 们 在 本 书 中 强调 的 那样 ， 存 储 平台 由 许多 组 件 组 成 ， 这 些 组 件 可 能 会 因 硬 件 和 vSphere 环 境 中 数据 存储 所 采用 
的 方法 而 有 很 大 差异 。 在 下 面 ， 我 们 将 介绍 关键 硬件 组 件 ， 以 及 用 于 监控 存储 各 个 元 素 的 不 同方 法 。 


10.2.1 在 主机 服务 器 上 监控 存储 


企业 存储 阵列 和 主机 连接 通常 被 设计 为 元 余 方 式 。 尽 管 如 此 ， 在 vSphere 主 机 服务 器 上 的 任何 硬件 组 件 故 障 ， 如 存储 适 配 
器 ， 应 当 立 即 被 运 维 监控 解决 方案 所 识别 ， 并 作为 首要 任务 进行 更 换 或 更 正 ， 以 预防 对 生产 环境 的 影响 ， 并 防止 主机 服务 器 的 完 
全 中 断 。 


除了 硬件 组 件 之 外 ， 还 应 监控 主机 服务 器 数据 存储 容量 的 利用 率 。 通 过 不 断 监控 数据 存储 容量 ， 可 以 有 效 地 预测 数据 的 可 用 
容量 和 增长 率 ， 从 而 确定 何 时 使 用 到 80% 和 100%。 通 过 提供 这 些 指标 ， 可 以 提前 采取 预防 措施 ， 例 如 扩展 LUN 容 量 或 添加 数据 
存储 。 此 操作 可 以 防止 存储 设备 容量 耗 尽 。 


10.2.2 ”监控 存储 架构 


SAN 架 构 设计 应 包括 对 组 件 的 健康 、 容 量 、 性 能 和 安全 性 进行 监控 。 应 该 解决 这 4 个 方面 中 的 每 一 个 ， 以 确保 架构 平台 能 够 
提供 共享 存储 阵列 和 HCI 设 计 所 需 可 靠 的 端 到 端 存 储 连 接 。 


1. 存 储 结构 健康 监控 


vsSphere 主 机 需要 连续 不 间断 地 访问 存储 架构 中 的 数据 ， 这 种 访问 完全 取决 于 为 其 设计 的 物理 和 逻辑 组 件 的 健康 ， 如 电源 、 
风扇 、 电 绕 和 干 兆 位 接口 转换 器 (GBIC) 等 组 件 构成 的 物理 设备 ， 还 有 Zone 以 及 寻 址 系统 等 组 成 的 逻辑 组 件 。 存 储 监控 设计 应 
包括 立即 报告 这 些 逻 辑 或 物理 组 件 故 障 的 相应 机 制 。 应 作为 设计 的 一 部 分 的 关键 存储 结构 组 件 包括 以 下 内 容 : 


. 架构 或 IP 交 换 机 错误 

. 分 区 错误 

- 交换 机 端口 或 GBICS 故 障 
“ 端口 状态 更 改 或 属性 更 改 


“ 架构 和 IP 交 换 机 状态 更 改 或 属性 更 改 


例如 ， 在 光纤 通道 设计 中 分 区 识别 的 错误 (例如 指定 端口 的 WWN 不 正确 ) 将 导致 无 法 访问 该 端口 。 所 有 这 些 错误 应 作为 存 
储 运 维 设计 中 一 部 分 来 进行 监控 、 报 告 和 纠正 。 
2. 人 存储 架构 容量 监控 


交换 机 端口 数 使 用 率 指 的 是 可 以 监视 不 同 架构 或 I1P 交 换 机 上 可 用 或 以 使 用 的 端口 数量 。 在 运 维 报告 中 提供 此 信息 可 以 提高 
机 服务 器 或 存储 阵列 端口 ， 需 要 添加 到 存储 架构 中 的 规划 和 扩展 活动 。 


存储 容量 监控 还 指 在 结构 交换 机 本 身 的 利用 率 ， 在 总 体 交 换 机 级 别 和 端口 级 别 利用 率 的 百分比 。 通 常 ， 作 为 设计 的 一 部 分 需 
要 特别 关注 端口 利用 率 ， 包 括 同时 传输 来 自 多 个 主机 的 流量 及 交换 机 间 链 路 (ISL) 。 这 些 指标 也 应 该 作为 存储 架构 性 能 监视 设 
计 的 一 部 分 来 解决 。 


3. 存 储 架 构 性 能 监控 


SAN 架 构 性 能 和 统计 指标 可 以 用 来 帮助 确定 硬件 的 问题 ， 或 者 预测 组 件 的 失败 。 例 如 ， 越 来 越 多 的 端口 链 路 故障 可 能 表示 
有 硬件 问题 ， 并 提醒 该 端口 可 能 会 失败 。 此 外 ， 信 号 丢失 或 同步 委 失 可 能 表明 即将 发 生 端 口 故障 。 


存储 架构 的 设备 端口 性 能 可 以 通过 接收 (Rx) 或 发 送 (Tx) 链 路 利用 率 指 标 来 衡量 。 这 些 可 以 以 聚合 交换 机 级 别 或 单个 端 
口 利用 率 级 别 来 寻 址 。 这 些 值 基于 供应 商 发 布 的 最 大 吞吐 量 ， 用 于 提供 交换 机 或 交换 机 端口 繁忙 的 程度 。 交 换 机 端口 利用 率 过 高 
可 以 导致 延迟 ， 使 主机 服务 器 出 现 排队 。 这 给 我 们 带 来 了 下 一 个 主题 : HBA 队 列 深度 。 


HBA 队 列 深度 是 HBA 可 以 在 每 个 存储 设备 、 单 个 数据 块 中 发 送 或 接收 的 命令 数量 。 如 果 队 列 深度 超过 存储 上 的 目标 将 会 降 
低 性 能 。 这 通常 是 由 于 将 太 多 的 并 发 I/O 操 作 发 送 到 存储 设备 ， 导 致 设备 使 用 I/O 故 障 消息 Queue Full (qfull) 进行 响应 ， 强 制 
vSphere 主 机 在 短 时 间 内 重 试 。 某 些 工作 负载 用 例 可 能 需要 控制 主机 上 的 队列 深度 ， 通 常 也 建议 这 部 分 也 作为 设计 的 一 部 分 。 
VMware 在 其 知识 库 中 提供 详细 的 指导 。 


例如 ， 当 需要 为 队列 深度 明显 大 于 Paravirtual SCSI 适 配器 默认 值 的 密集 I/O 模 式 提 供 大 规模 业务 关键 型 工作 负载 的 存储 
时 ， 可 能 需要 调整 主机 的 最 大 队列 深度 值 。 


在 这 样 的 设计 情况 下 ， 需 要 在 集群 中 每 个 vSphere 主 机 上 修改 两 个 值 : 
所 有 的 HBA 设 备 默 认 的 队列 深度 值 (QILogic、Emulex 或 Brocade) 
. 最 大 未 完成 磁盘 请 求 参数 (Disk.SchedNumReqOutstanding) 


例如 ， 如 果 设 计 采 用 QLogic HBA， 则 ESXi 5.x 和 6 中 的 默认 队列 深度 为 64。 若 要 修改 此 配置 ， 使 ESXi 6 主机 上 提供 128 队 列 
深度 ， 运 行 以 下 命令 后 ， 重 新 启动 主机 : 


esxcli System module parameters set -p qlfxmaxqdepth=128 -m qlnativefc 


要 配置 新 的 最 大 未 完成 磁盘 请 求 值 (Disk.SchedNumReqOutstanding) ， 应 运行 以 下 命令 (如 配置 的 值 为 256) : 


esxcli storage core device set -d naa.xxx -0 256 


如 果 设 计 需 要 修改 队列 深度 ， 请 确保 此 配置 已 正确 完成 并 符合 硬件 供应 商 的 建议 ， 还 要 确保 在 集群 中 所 有 主机 上 HBA 品 牌 
或 队列 深度 值 一 致 。 


修改 这 些 选 项 应 该 是 一 个 深思 熟 虑 的 设计 决策 ， 除 非 有 明确 的 要 求 或 设计 因素 ， 否 则 不 应 该 执行 。 有 关 修 改 这 些 值 的 更 多 信 
息 ， 请 参阅 VMware 有 天 该 主题 及 其 支持 知识 库 文 章 的 详细 指导 。 


4. 存 储 架 构 安全 监控 


作为 存储 架构 设计 的 一 部 分 ， 你 应 该 考虑 如 何 将 SAN 管 理工 作 限制 在 一 个 可 以 控制 的 范围 内 ， 如 何 严格 地 实施 密码 管理 以 
及 如 何 限制 和 监控 对 设备 的 物理 访问 。 


例如 ， 在 光纤 通道 存储 架构 中 ， 安 全 监控 通常 包括 在 进行 分 区 配置 更 改 时 识别 ， 并 通知 相关 合 规 人 员 。 未 经 授权 的 区 域 可 能 
会 损害 数据 安全 性 ， 并 导致 数据 无 法 访问 。 还 应 监控 用 户 登录 尝试 和 存储 设备 交换 机 的 验证 事件 ， 并 提供 管理 更 改 的 审计 跟踪 。 


除了 之 前 强调 的 那些 组 件 ， 当 考虑 IP 网 络 的 监控 时 ， 设 计时 还 应 考虑 更 常见 的 与 以 太 网 通信 相关 的 知识 领域 ， 例 如 : 网 络 冲 
突 、 数 据 丢 包 、 网 络 延迟 、 吞 吐 量 、 带 宽 利用 率 。 


10.2.3 ”上 监控 存储 阵列 系统 


无 论 设 计 是 采用 虚拟 卷 还 是 将 典型 的 VMFS 卷 方法 应 用 于 共享 存储 系统 ， 企 业 级 设备 通常 从 一 开始 就 设计 为 高 可 用 性 。 即 使 
单个 组 件 发 生 故 障 ， 端 到 端 元 余 组 件 也 能 提供 持续 的 可 用 性 ， 尽 管 在 这 种 中 断 期 间 性 能 可 能 会 降低 。 然 而 ， 仍 然 需要 仓储 阵列 操 
作 监 控 设 计 ， 以 便 允许 存储 团队 在 存储 事件 发 生 时 对 其 进行 预测 和 反应 。 


1. 存 储 阵列 健康 监控 


存储 阵列 运 维 监 控 设 计 的 主要 目的 是 恢复 最 佳 的 性 能 ， 并 尽 可 能 快 地 保护 环境 免 受 由 单个 或 多 个 硬件 组 件 故障 引起 的 完全 中 
断 。 为 了 尽量 减少 任何 现场 可 替换 组 件 故 障 的 影响 ， 应 尽 可 能 快 地 更 换 故 障 组 件 。 许 多 存储 供应 商 通 过 自动 通报 的 功能 来 优化 此 
过 程 ， 如 果 磁 盘 、 风 扇 或 电源 模块 等 组 件 发 生 故 障 ， 阵 列 软件 会 自动 向 硬件 制造 商 的 支持 小 组 发 送 消息 。 


2. 人 存储 阵列 容量 监控 





跨 人 存储 系统 的 检查 和 审查 容量 是 运行 监控 的 一 个 重要 方面 。 人 存储 阵列 容量 通常 归 类 为 已 配置 或 未 配置 。 已 配置 的 存储 空间 是 
分 组 到 磁盘 池 (将 进一步 分 区 为 更 小 的 单个 SCSI LUN) 或 存储 容器 (由 vSphere 用 于 为 虚拟 卷 提 供 存储 实体 ) 的 空间 量 。 未 配 
置 存储 是 指 阵列 中 尚未 分 配 职责 的 物理 磁盘 。 下 一 个 与 容量 有 关 的 术语 是 已 分 配 和 未 分 配 。 已 分 配 的 存储 是 指 已 被 挂 载 供 主机 使 
用 的 LUN 或 存储 容器 ， 而 未 分 配 的 存储 器 是 指 已 配置 但 尚未 呈现 给 主机 服务 器 的 存储 。 











为 什么 这 些 术语 从 运 维 的 角度 来 看 是 重要 的 ? 通过 了 解 这 些 术 语 以 及 存储 阵列 ， 并 通过 监视 存储 阵列 的 已 配置 、 未 配置 、 已 
分 配 和 未 分 配 容量 来 使 用 物理 磁盘 资源 ， 可 以 使 存储 运 维 团 队 能 够 更 好 地 了 解 存 储 需 求 ， 从 而 在 磁盘 资源 耗 尽 之 前 可 以 预测 和 响 
应 存储 需求 。 在 磁盘 资源 耗 尽 之 前 ， 可 以 采用 这 种 主动 方法 ， 在 时 间 和 规划 阵列 上 预测 新 的 容量 ， 而 且 需 要 快速 做 出 无 故障 的 决 
策 和 无 需 考虑 影响 性 分 析 。 


3. 存 储 阵列 性 能 监控 


从 性 能 角度 来 看 ， 通 常 可 以 在 存储 阵列 硬件 上 监控 许多 有 关 性 能 和 统计 的 指标 ， 具体 要 求 取决 于 所 使 用 的 存储 系统 。 然 而 ， 
一 些 关 键 指 标 不 管 存储 供应 商 如 何 ， 都 应 该 作为 运 维 设计 的 一 部 分 来 进行 监控 这些 指标 很 可 能 包括 存储 平台 众多 组 件 的 利用 
率 。 过 高 的 利用 率 可 能 导致 整个 阵列 的 性 能 下 降 。 除 了 硬件 监控 外 ， 对 存储 阵列 的 运 维 环境 、 软 件 或 固件 的 监控 也 同样 重要 。 这 


些 过 程 可 能 影响 灾难 恢复 功能 中 的 复制 任务 和 可 能 影响 数据 性 能 和 可 用 性 的 RAID 功 能 。 
4. 存 储 阵列 安全 和 环境 监控 


存储 阵列 监控 的 安全 考虑 也 应 作为 设计 的 一 部 分 来 解决 。 例 如 ， 全 球 唯一 名 字 (WWN) 欺骗 可 能 是 一 个 安全 问题 。 当 主机 
故意 配置 具有 与 授权 主机 相同 的 WWN 的 HBA 时 ， 如 果 此 未 经 授权 的 主机 连接 到 相同 的 SAN 存 储 阵列 ， 则 可 以 绕 过 分 区 和 LUN 


存储 设计 还 应 规定 采用 哪些 机 制 来 确保 只 有 授权 人 员 能 够 执行 管理 任务 ， 例 如 设备 配置 、 存 储 设备 呈现 、 复 制 操作 和 端口 配 
置 。 当 然 这 些 任务 只 能 由 授权 的 管理 员 来 执行 ， 并 应 结合 变更 审批 制度 进行 审核 。 


物理 数据 中 心 和 硬件 环境 监控 是 任何 基础 设施 设计 的 关键 考虑 因素 。 监 控 物 理 数 据 中 心 的 内 部 环境 与 监控 各 个 存储 组 件 一 样 
重要 。 与 所 有 电气 设备 一 样 ， 存 储 阵列 和 HCI 硬 件 对 温度 、 湿 度 、 气 流 、 电 压 波动 ， 以 及 水 、 灰 和 尘 和 烟雾 等 危害 极为 敏感 。 
此 ,数据 中 心 设计 必须 始终 考虑 正确 的 通风 要 求 ， 提 供 对 温度 和 湿度 的 准确 控制 ， 以 及 确保 电源 不 间断 ， 并 且 可 以 对 可 能 发 生 的 
任何 电压 波动 进行 校正 。 物 理 数据 中 心 监控 的 总 体 目标 是 立即 向 业务 团队 报告 环境 状况 的 变化 ， 以 确保 平台 的 稳定 性 。 


与 环境 有 关 的 最 终 要 考虑 的 是 物理 访问 和 安全 。 通 常 ， 这 些 环境 由 监控 摄像 头 和 安全 人 员 24x 7 全 天 候 监视 ， 授 权 员 工 需要 
门禁 卡 、 生 物 特征 扫描 ， 或 两 者 都 需要 才 人 允许 进入 数据 中 心 ， 目 的 是 将 数据 中 心 设施 中 的 硬件 物理 访问 限制 在 特定 的 人 员 上 ， 并 
且 这 取决 于 他 们 的 工作 范围 。 


10.3 ”存储 上 监控 的 挑战 
如 前 所 述 ， 数 据 中 心 需要 并 到 端 监控 的 核心 元 素 是 存储 阵列 或 融合 存储 平台 、 网 络 、 主 机 服务 器 ， 以 及 应 用 程序 和 数据 库 本 
身 。 


另外 ， 如 你 所 见 ， 在 vSphere 环 境 中 ， 存 储 阵列 可 能 基于 光纤 通道 、IP SAN、IP NAS， 甚 至 DAS 硬 件 。 某 些 基础 设施 甚至 
可 能 附加 了 与 Open Systems 或 Microsoft Windows 一 起 安装 的 附加 硬件 ， 例 如 磁带 机 、 磁 盘 库 或 裸 机 服务 器 。 


因此 ， 人 存储 平台 监控 的 主要 挑战 之 一 是 企业 内 部 上 T 组 织 和 服务 提供 商 维护 多 数 SAN 和 vsSphere 厂 商 的 异 质 性 ， 以 及 你 可 以 通 
过 单一 管理 和 监控 解决 方案 集成 多 供应 商 硬 件 和 软件 的 方式 ， 如 图 10-1 所 示 。 运 维 团队 监控 单个 阵列 相对 简单 。 然 而 ， 将 许多 
SAN 交 换 机 ， 以 及 众多 存储 平台 和 其 他 设备 一 起 监控 ， 并 且 将 这 些 有 意义 的 指标 和 和 警报 数据 关联 在 一 起 是 一 个 更 复杂 的 挑战 。 
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图 10-1 存储 监控 的 挑战 








这 种 情况 在 很 大 程度 上 来 自 于 IT 组 织 和 服务 提供 商 被 赋予 了 为 特定 应 用 程序 或 项 目 选择 最 适合 产品 的 灵活 性 ， 或 者 选择 购买 
以 获得 最 佳 硬件 和 支持 。 然 而 ,没有 定义 的 标准 ， 这 种 混合 供应 商 环 境 基于 策略 的 管理 可 能 非常 复杂 ， 对 这 些 类 型 的 异 构 存储 基 
础 设施 构成 了 一 个 大 问题 。 


尽管 每 个 供应 商 通 常会 为 自身 的 组 件 提供 监控 和 管理 工具 ， 但 任何 运 维 监控 解决 方案 主要 的 挑战 是 对 构成 混合 供应 商 存储 平 


台中 众多 组 件 进 行 报告 。 


这 些 环境 的 监控 和 管理 ， 要 求 存 储 管理 员 学 习 多 种 数据 中 心 运 维 工具 ， 甚 至 不 同 厂商 所 采用 的 不 同 术 语 。 这 种 跨 平台 整合 到 
单一 解决 方案 中 的 缺陷 可 能 是 具有 挑战 性 的 。 接 下 来 就 不 可 能 在 单一 管理 平台 上 获得 环境 中 发 生 的 情况 。 此 外 ， 这 种 跨 平台 监控 
的 缺乏 可 能 使 得 将 环境 中 所 有 存储 平台 的 信息 与 单一 管理 平台 的 关联 变 得 很 困难 。 因 此 ， 这 限制 了 运营 团队 对 容量 、 性 能 和 可 用 
性 做 出 明智 决策 的 能 力 。 


10.4 ”通用 存储 管理 和 监控 标准 


在 统一 的 管理 框架 下 尝试 集成 多 个 供应 商 硬 件 和 软件 时 ， 运 维 架构 师 将 面临 严峻 挑战 。 尽 管 SAN 管 理 员 对 单个 供应 商 的 光 
纤 交 换 机 或 存储 阵列 类 型 进行 报告 相对 简单 ， 但 是 监视 来 自 不 同 供应 商 的 硬件 并 将 性 能 和 事件 数据 与 单一 管理 平台 相关 联 是 一 个 
更 复杂 的 挑战 。 


已 经 为 制定 存储 硬件 和 软件 制造 商 的 共同 标准 进行 了 多 次 尝试 ， 并 取得 了 不 同 程度 的 成 功 。 若 没有 一 个 通用 的 管理 平台 ， 基 
于 策略 的 管理 和 提供 存储 即 服务 是 非常 困难 的 。 这 在 由 多 个 供应 商 的 硬件 组 成 的 异 构 存储 环境 中 造成 了 严重 的 挑战 。 


没有 通用 标准 ， 供 应 商 特定 的 管理 和 监控 应 用 程序 之 间 不 存在 通用 的 访问 层 。 此 外 ， 也 不 可 能 有 多 厂商 自动 发 现 硬件 ， 并 且 
整个 存储 设备 类 别 基于 策略 的 管理 也 是 不 可 能 的 ， 导 致 传统 存储 系统 为 管理 团队 提供 高 运营 的 开销 。 以 下 部 分 介绍 了 在 为 多 供应 
商 异 构 存 储 平台 设计 运 维 解决 方案 时 ， 可 能 会 缓解 某 些 难点 的 常见 标准 。 


直到 最 近 ， 简 单 网 络 管理 协议 (SNMP) 成 为 标准 ， 也 可 能 是 有 效 管理 和 维护 多 厂商 存储 和 和 SAN 环境 的 唯一 选择 。 然 而 ， 
由 于 其 众所周知 的 协议 限制 ，SNMP 通 常 不 会 提供 足够 多 的 细节 。 这 些 限制 包括 提供 通用 对 象 模型 ， 通 常 采 用 反应 机 制 ， 安 全 性 
差 (除非 支持 版 本 3) ， 还 不 提供 自动 发 现 功 能 。 尽 管 SNMP 仍 然 保留 了 对 SAN 及 存储 管理 和 监控 的 一 定 程度 采用 ， 特 别 是 在 异 
构 环 境 中 ， 深 层 存 储 和 SAN 可 见 性 的 更 新 和 新 兴 标 准 可 能 会 改变 这 一 点 。 


存储 网 络 行业 协会 (SNIA) 一 直 致 力 于 开发 基于 分 布 式 管理 任务 组 (DMTF) 公共 信息 模型 (CIM) 的 通用 性 、 开 放 存 储 
和 SAN 管 理 接口 标准 。 该 计划 被 称 为 存储 管理 计划 (SMI1) ， 规 范本 身 被 称 为 存储 管理 计划 规范 (SMI-S) 。 


该 计划 的 主要 目标 是 创建 可 由 所 有 存储 和 SAN 硬 件 、 软 件 制造 商 实施 的 公共 标准 ， 以 提高 供应 商人 存储 系统 之 间 的 互 操作 
性 ， 从 而 大 大 提高 多 供应 商 和 异 构 环境 的 管理 和 监控 能 力 。 


通过 提供 这 种 互 操作 性 ， 运 营 团 队 可 以 配备 一 个 统一 的 用 户 界面 来 执行 大 多 数 (如 果 不 是 全 部 ) 常见 的 操作 。 其 结果 对 存储 
管理 员 和 供应 商都 会 带 来 巨大 的 好 处 。 


除了 互 操作 性 及 其 对 运营 管理 和 监控 带 来 的 好 处 之 外 ，SMI-S 允 许 独立 软件 供应 商 〈1SV) 及 其 开发 团队 从 单一 的 统一 对 象 
模型 中 运行 ， 并 提供 单一 文档 来 源 ， 提 供给 他 们 和 交互 及 管理 不 同 的 SAN 和 存储 组 件 需要 的 所 有 知识 。 因 此 ， 支 持 SM1-S 的 产品 
可 以 实现 更 容易 和 更 快 的 部 署 时 间 ， 并 加 速 在 异 构 环境 中 采用 基于 策略 的 存储 管理 。 


如 图 10-2 所 示 ，SM1-S 形 成 了 位 于 管理 对 象 和 管理 应 用 程序 之 间 的 一 层 ， 其 包含 两 种 不 同 的 技术 : 公共 信息 模型 (CIM) 和 


基于 Web 的 企业 管理 (WBEM) 计划 。 这 些 组 合 技术 允许 SMI-S 代 理 询问 存储 或 交换 设备 ， 从 启用 CIM 的 硬件 中 提取 所 需 的 管 
理 数 据 ， 并 将 收集 的 信息 提供 给 请 求 管理 应 用 程序 。 


cIM 提 供用 于 描述 管理 数据 的 语言 和 方法 ， 允 许 将 此 信息 用 于 执行 任务 。CIM 架 构 包括 主机 系统 、 软 件 应 用 程序 、 网 络 硬件 
和 其 他 设备 的 模型 。 该 架构 可 以 使 来 自 不 同 平台 及 不 同 供应 商 的 软件 ， 能 够 以 标准 格式 描述 管理 对 象 的 数据 ， 从 而 允许 其 在 不 同 
的 管理 应 用 程序 中 使 用 。 


WBEM 提 供 了 由 DMTF 开 发 的 一 套 通 用 管理 和 互联 网 标准 架构 ， 以 帮助 汇聚 企业 数据 中 心 环境 的 管理 。 组 成 WBEM 的 
DMFT 核 心 标准 包括 : 
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CIM 标 准 

编码 规范 

- XML CIM 编 码 规范 
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. 通过 HTTP 进 行 CIM 操 作 
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图 10-2 ”SMI-S 设 计 和 规范 


总 而 言 之 ， 这 些 标准 使 得 WBEM 能 够 使 用 基于 Web 和 云 的 技术 提供 一 整套 基于 标准 的 管理 工具 ， 该 技术 与 CIM 集 成 可 用 于 
开发 ISV 和 存储 供应 商 的 集成 解决 方案 。 


这 将 会 是 针对 这 一 具有 挑战 性 问题 的 基于 软件 的 解决 方案 ， 为 复杂 的 企业 IT 组 织 和 服务 提供 商 提供 监控 和 管理 覆盖 ， 从 而 简 


化 了 使 用 多 厂商 存储 平台 的 操作 。 


在 异 构 存 储 设 计 中 采用 任何 解决 方案 都 应 该 理想 地 监控 所 有 供应 商 的 数据 中 心 对 象 ， 并 提供 一 个 天 联 引 警 ， 通 过 单个 用 户 界 
面 将 收集 的 指标 提供 给 运营 团队 。 理 想 的 监控 解决 方案 还 应 该 能 够 对 所 有 连接 的 环境 进行 深入 的 根本 原因 分 析 ， 并 指出 单个 组 件 
故障 可 能 会 对 应 用 程序 带 来 的 影响 。 

它 还 应 该 具有 识别 多 种 症状 的 能 力 ， 并 通过 各 种 机 制 (如 电子 邮件 、 短 信 ) 触发 警报 来 通知 运营 团队 ， 并 生成 可 提供 综合 衡 
量 标准 数据 和 容量 规划 分 析 的 报告 。 


设计 的 总 体 目标 应 始终 是 拥有 能 够 监控 数据 中 心 内 所 以 组 件 (如 网 络 交 换 机 、SAN 交 换 机 、 存 储 硬件 、HCI 和 vSphere 主 
机 ) 的 集成 解决 方案 ， 并 向 用 户 发 出 任何 问题 的 警告 ， 这 些 组 件 信息 通过 其 统一 管理 用 户 界面 进行 展示 。 另 外 ， 如 前 所 述 ， 为 了 
方便 电话 技术 支持 或 者 加 班 操作 ， 它 应 该 能 够 启用 其 他 类 型 的 警报 ,例如 : 电子 邮件 或 手机 短信 。 


最 后 ， 任 何 企业 监控 和 管理 解决 方案 还 应 包括 日 常任 务 和 其 他 操作 程序 的 功能 ， 例 如 报告 容量 和 性 能 。 然 而 ， 如 你 所 见 ， 这 
种 类 型 的 管理 平台 正在 复杂 化 ， 甚 至 可 能 需要 一 套 集 成 的 应 用 程序 来 执行 跨 多 个 数据 中 心 的 任务 ， 以 简化 管理 和 监控 多 组 件 和 多 
供应 商 的 工作 环境 ， 如 图 10-3 所 示 。 
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图 10-3 用 于 存储 和 平台 监测 目标 解决 方案 






MS SQL 


10.5 ” Virtual SAN 的 监控 和 运 维 工具 


本 章 到 目前 为 止 ， 我 们 都 集中 在 与 第 三 方 存储 阵列 及 基于 SAN 硬 件 的 管理 和 监控 的 相关 运 维 方面 。 在 开始 介绍 vRealize 
Operations Manager 之 前 ， 首 先 介绍 一 下 VMware 提供 的 工具 ， 以 便 对 启用 Virtual SAN 的 存储 资源 进行 监控 、 管 理 和 故障 排 
除 。 


VMware 提供 以 下 用 于 监控 、 管 理 ， 以 及 集群 启用 Virtual SAN 的 故障 排除 工具 : 
ESXCLI 命 令 行 界面 
: Ruby vSphere Console (RVC) 命令 行 


- VSAN Obsetvet 图 形 用 户 界 面 


VRealize Operations Managet 适 用 于 存储 设备 的 内 容 管理 包 
“ VRealize Log Insight 与 Vittual SAN 的 内 容 包 


每 个 主机 执行 ESXCLI 命 令 行 界面 ， 因 此 可 以 看 到 提供 Virtual SAN 集 群 状态 的 仅 主 机 视图 ， 如 图 10-4 所 示 。 


[root@hp-001:~] esxcli vsan 
Usage: esxcli vsan {cmd} [cmd options] 


Available Namespaces: 
cluster host cluster configuration 
datastore datastore configuration 
network host network configuration 
storage physical storage configuration 
faultdomain fault domain configuration 
maintenancemode mintenance mode operation 
policy storage policy configuration 
trace trace configuration 





图 10-4 Virtual SAN RVC 命 名 空间 选项 


RVC 为 ESXi 和 vCenter Server 提 供 了 一 个 基于 命令 行 的 用 户 界面 ， 可 以 使 用 Virtual SAN 命 令 进行 以 环境 为 中 心 的 集群 视 
图 。RVC 可 用 于 通过 一 组 命令 来 监视 ， 管 理 和 故障 排除 ， 以 下 为 其 中 的 一 部 分 ， 如 图 10-5 所 示 。 


RVC 与 vCenter Server Appliance (VCSA) 和 Windows 版 本 的 vCenter Server 集 成 在 一 起 ， 是 用 于 集群 中 启用 Virtual 
SAN 管 理 和 故障 排除 最 全 面 的 工具 之 一 。 


该 vsan.observer 从 RVC 中 执行 ， 并 提供 了 一 个 全 面 的 计数 器 列表 ， 以 及 深入 了 解 Virtual SAN 的 机 制 。 要 启动 
vsan.observer 会 话 ， 请 从 RVC 命 令 窗口 切换 到 Virtual SAN 集 群 ， 然 后 运行 以 下 命令 : 


vsan.observer ~/computers/VSAN <options> 


可 用 选项 如 下 : 


NAIVE TRS OLDE NAT ETS7 EY 


vsan.enable vsan on cluster 





vsan.check limits vsan.disable vsan on cluster 
vsan.check state 8 . i vsan.clear disks cache 

< vsan.disk object info 二 
vsan.cluster info i vsan.host info vsan.cluster change autoclaim 
vsan.cmmds_find Vea 人 vsan.host consume disks vsan.cluster set default policy 
vsan.whatif host failures Vsan.disks_stats - = vsan.enter maintenance mode 


vsan.resync dashboard vsan.fix renamed vms 


Vsan.object reconfigure 
vsan.host wipe vsan disks 
虚拟 机 故障 排除 ” eee 
vsan.reapply vsan vmknic config 
Rk , vsan.proactive rebalance 
vsan.vm_object_info vsan.resync dashboard 
Vsan.vm perf stats | 


.Check limits 
有 监控 VSan.c 
vsan.lldpnetmap VSan。 vmdk stats WYN 个 vsan.sizing 


vsan.obj status report 


vsan.support information 


i nf 
vsan.object info vsan.observer 


图 10-5 Virtual SAN RVC 命 名 空间 选项 


Live Monitoring : --run-webserver --force 
offline Monitoring : --generate-html-bundle 
RAW Stats Bundle : --filename 


除了 从 整个 Virtual SAN 集 群 提供 性 能 信息 外 ，vsan.observer 还 可 以 显示 如 下 所 示 的 细 粒 度数 据 : 
. SSD IOPS、 延 迟 和 读 缓存 命中 率 

磁盘 性 能 

.VSAN CPU 占有 率 

` 虚拟 机 VMDK 性 能 

" 数据 每 60 秒 刷新 “平均 值 ” 

除 此 之 外 ，vsan.observer 还 提供 了 在 Virtual SAN 环 境 中 识别 出 任何 组 件 瓶 颈 的 能 力 。 


然而 ， 如 图 10-6 所 示 ， 虽 然 该 工具 通过 其 GUI 提供 了 广泛 而 详细 的 数据 ， 但 大 多 数 管理 员 不 认为 它 是 可 用 于 日 常 操作 中 的 直 


观 的 工具 。 此 外 ， 它 无 法 提供 任何 历史 数据 ， 因 为 它 仅 显示 一 个 实时 视图 。 其 结果 是 vsan.observer 已 被 证 实 对 存储 团队 的 日 常 
监控 任务 的 价值 有 限 ， 并 且 主 要 用 于 故障 排除 。 出 于 这 个 原因 ，Virtual SAN 6.2 之 后 ，VMware 还 推出 了 性 能 服务 。 





图 10-6 ”vSAN Observet 图 形 用 户 界 面 


性 能 服务 提供 开 箱 即 用 的 Virtual SAN 衡 量 指标 信息 ， 与 VSAN Observer 不 同 ， 它 可 以 从 vSphere Web Client 中 轻松 查 
看 ， 如 图 10-7 所 示 。 


gcp-atx-02 - Edit Virtual SAN Performance Service Settings 


要 TurmoN virualSAN performance service 


Su 


Storage policy | Virual SAN Default Stprage .. | ™ 


- 


The Virual SAN per 和 rmance history database is 
stored as a VSAN object. The policy controls the 
availability space consumption and performance of 
thatobject. Ifthe object becomes unavailable, the 
perbrmance history for the cluster will also be 
unavailable. 





| OK || Cancel | 


图 10-7 性 能 : 服务 状态 和 策略 配置 


但 是 ,与 其 他 vSphere 性 能 指标 不 同 ， 性 能 服务 存储 在 Virtual SAN 数 据 存储 本 身上 ， 而 不 是 运行 在 vCenter Server 分 布 式 
数据 库 上 ， 从 而 不 会 对 vCenter 管 理 组 件 产生 额外 的 开销 。 


性 能 服务 提供 各 种 角度 视图 ， 例 如 集群 延迟 、 吞 吐 量 和 IOPS， 以 及 说 明 更 精细 的 度量 标准 视图 ， 例 如 每 个 磁盘 性 能 、 读 取 
缓存 命中 率 和 每 个 磁盘 组 统计 信息 。 此 外 ， 性 能 服务 还 向 管理 员 提 供 了 整个 Virtual SAN 集 群 当前 状态 的 聚合 视图 ， 并 将 其 显示 
在 单独 窗口 中 ， 以 说 明 当前 的 负载 和 延迟 ， 如 图 10-8 所 示 。 
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图 10-8 性 能 服务 监测 和 报告 


既 可 以 在 vCenter Server Web Client 外 部 查看 所 有 这 些 图 表 ， 但 也 可 以 通过 Virtual SAN API 访 问 实时 数据 和 历史 统计 信 
息 ， 从 而 允许 第 三 方 或 定制 的 解决 方案 来 利用 这 些 指标 。 


性 能 服务 数据 库 与 Virtual SAN 数 据 存储 上 的 任何 其 他 对 象 一 样 被 分 配 存 储 策 略 ， 以 控制 其 对 磁盘 容量 、 可 用 性 和 性 能 的 消 
耗 。 与 性 能 服务 相关 联 的 历史 数据 库 可 以 在 Virtual SAN 数 据 存储 上 占用 大 约 255GB 的 容量 。 如 果 非 容错 功能 (例如 FTT=0) 被 
分 配给 该 对 象 ， 并 且 由 于 主机 故障 ， 对 象 变 得 不 可 用 ， 则 集群 的 性 能 历史 记录 也 将 不 可 用 ， 直 到 该 对 象 被 恢复 。 


最 后 ， 如 图 10-9 所 示 的 运行 服务 功能 与 性 能 服务 紧密 相连 ， 并 且 都 集成 在 vSphere Web Client 中 ， 每 60 分 钟 主动 监控 
Virtual SAN 集 群 的 运行 状况 。 这 种 监控 确保 了 硬件 兼容 性 、 网 络 连 通 性 和 存储 利用 率 是 正确 的 。 如 果 违 反 阅 值 或 支持 状态 ， 此 
功能 会 产生 和 警报 。 
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图 10-9 ”Virtual SAN 运 行 状况 服务 指南 


除了 我 们 描述 的 监控 机 制 和 工具 之 外 ，VMware 还 提供 vRealize Operations Manager 和 vRealize Log Insight 来 减轻 许多 
存储 业务 的 痛处 。 


通过 提供 对 异 构 人 存储 、 网 络 和 计算 环境 的 端 到 端 监控 ， 这 些 工具 提供 了 完整 的 数据 中 心 运 维 解决 方案 。 


10.6 vRealize Operations Manager 


VMware vRealize Operations Manager 提 供 了 一 个 高 可 扩展 、 完 全 集成 的 运 维 平台 ， 可 以 对 整个 IT 组 织 或 服务 提供 商 的 
不 同 厂家 的 存储 系统 进行 一 致 的 性 能 、 配 置 和 容量 管理 ， 如 图 10-10 所 示 。 


VMware vRealize Operations Manager 具 有 不 同 功能 集 的 多 个 版 本 。 然 而 ， 大 多 数 存 储 设计 的 目标 是 为 vSphere 和 存储 
基础 设施 提供 性 能 、 可 用 性 和 容量 的 管理 信息 。vRealize Operations 通 过 使 用 存储 设备 的 VMware Management Pack for 
Storage Devices 和 第 三 方 管理 包 ， 如 EMC Storage Analytics (ESA) 或 Blue Medora vRealize Operations Management 
Pack for NetApp systems 的 管理 包 和 适配器 来 实现 此 目的 。 
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图 10-10 ”vRealize Operations Managet 逻 辑 设 计 


10.6.1 用 于 存储 设备 的 管理 包 


如 图 10-11 所 示 ， 适 用 于 存储 设备 的 管理 包 (MPSD) 为 存储 设备 和 存储 架构 提供 了 深入 的 端 到 端 可 见 性 。MPSD 还 提供 计 
算 、 存 储 和 网 络 问题 之 间 的 相关 性 ， 以 通过 采用 整体 衡量 数据 来 减少 故障 排除 的 延迟 。 


入 
mc3b4 mgmtiocal_vmhba2 

Dam <3b2 mgmtiocal_vmhba2 

wsm-c3b1 mgmtiocal_vmhba2 

Dem <3bl mgmtiocal_vmhba39 

Psm c3b2 mgmtiocal_vmhba34 


Dem <3b1mgmtiocal_vmhba37 Y 
Top 23 Highest ushaason 


w2-sm-c3b4 mgmt local_NAA 55CD2E404C00. 


W2-sm-C3bY mgmt local_NAA 55CD2E404C00. 


Ww2-sm -cb1 mgmt local_NAA 55SCD2E404C00- wa-sm-c304 mgmt local_NAA 55CD2E404C00694B 





图 10-11 适用 于 存储 设备 的 管理 包 仪表 板 视图 


当 监 控 存 储 端 到 端 时 ， 从 主机 到 存储 系统 各 种 组 件 都 在 起 作用 。MPSD 的 目的 是 通过 确定 问题 所 在 的 层 来 提供 简化 故障 排查 
的 可 视 化 。MPSD 通 过 使 用 本 章 前 面 介绍 的 许多 常见 协议 ， 为 存储 环境 提供 了 可 视 性 。 使 用 MPSD 你 可 以 收集 来 自 各 种 存储 设备 


性 能 和 运行 状况 的 数据 。 预 定义 的 仪表 板 允 许 运 维 团队 从 虚拟 机 到 存储 卷 从 头 到 尾 遵循 路 径 ， 有 助 于 简化 对 该 路 径 可 能 存在 的 任 
何 问题 的 识别 。 需 要 注意 的 是 ， 为 了 通过 MPSD 得 到 这 个 终端 到 终端 的 可 见 性 ， 你 必须 在 vCenter 中 注册 存储 的 提供 程序 


(Storage Provider) 。 
该 MPSD 有 以 下 主要 特点 : 
. 支持 Virtual SAN 指 标 
通过 SAN 或 NAS 端 到 端的 数据 路 径 视 图 ， 提 供 从 虚拟 机 到 存储 卷 的 可 视 性 
“ 支持 NFES、iSCSI、 光 纤 通 道 和 FCoE 协 议 
通过 标准 化 协议 访问 存储 设备 ， 包 括 CIM、SMI-S 和 VASA 
* 开 箱 即 用 的 仪表 板 ， 用 于 健康 和 性 能 监控 


. 通常 识别 的 存储 事件 的 分 析 ， 例 如 所 有 路 径 下 降 (APD) 和 永久 设备 丢失 (PDTL) 


10.6.2 ”存储 合作 伙伴 解决 方案 


许多 存储 硬件 制造 商 和 独立 软件 供应 商 为 特定 的 存储 和 硬件 开发 了 vRealize Operations 管 理 包 ， 以 便 提供 一 个 可 以 轻松 集 
成 到 现 有 监控 和 运 维 解决 方案 中 的 独立 视图 。 通 常情 况 下 ， 第 三 方 管理 包 会 为 这 些 存储 设备 上 运行 的 工作 负载 提供 端 到 端 可 视 
性 、 分 析 和 容量 规划 。 第 三 方 管理 包 使 用 vRealize Operations Manager 分 析 引 警 深入 了 解 存储 硬件 ， 提 供 自动 化 分 析 ， 在 性 化 
和 变量 的 频 ， 对 业务 应 用 程序 产生 负面 影响 之 前 ， 主 动 告警 任何 即将 发 生 的 性 能 或 容量 问题 的 指标 。 


然而 ， 在 MPSD 可 以 提供 运营 团队 的 方面 ， 以 及 第 三 方 供应 商 的 特定 解决 方案 能 够 提供 的 方面 ， 在 提供 更 深层 次 的 审查 方 
面 ， 他 们 可 以 提供 更 深入 的 存储 硬件 和 软件 。 这 个 问题 通常 需要 作为 计划 使 用 vRealize Operations Manager 存 储 监视 功能 的 操 
作 设 计 的 一 部 分 来 解决 。 


图 10-12 和 图 10-13 提 供 了 关于 这 个 问题 的 一 般 性 指导 。 两 者 都 显示 ， 与 第 三 方 供应 商 特定 解决 方案 相 比 ，MPSD 可 以 提供 
可 视 性 的 分 界线 落 在 何 处。 然而 ， 这 些 解决 方案 因 供应 商 而 异 ， 新 产品 功能 也 会 定期 添加 到 这 些 产 品 中 ， 并 且 这 些 产 品 通常 需 
额外 付费 。 其 重要 的 是 ， 要 为 客户 提供 其 特定 硬件 的 最 新 比较 ， 并 向 客户 说 明 哪个 解决 方案 提供 哪些 功能 ， 以 便 做 出 明智 的 设计 
决策 。 

图 10-13 进 一 步 比较 了 MPsD 提 供 的 功能 ， 以 及 存储 供应 商 或 第 三 方 独立 软件 开发 人 员 提 供 的 解决 方案 。 重 要 的 是 要 认识 到 
每 个 供应 商 的 解决 方案 所 将 针对 其 硬件 及 其 功能 ， 因 此 功能 和 功能 可 能 会 有 很 大 差异 。 


适用 于 存储 设备 的 管理 包 
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图 10-12 vRealize Operations Managet 集 成 解决 方案 概述 





通过 MPSD 提 供 


HBA 链 接 | 向 上 /向 下 的 端口 
读 / 写 I0| 吞 吐 量 | 带宽 IHBA 
延迟 /队列 深度 | 存储 结构 ILUN 


使 用 对 象 的 通用 容量 容器 & 


读 / 写 I0| 吞 吐 量 | 带宽 IHBA 延 
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处 理 器 端口 


所 有 对 象 的 可 用 性 数据 ， 包 
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图 10-13 MPSD 和 存储 供应 商 管 理 包 功 能 比较 


10.7 vRealize Log Insight 


VMware vRealize Log Insight 是 一 个 基于 系统 日 志 的 解决 方案 ， 不 仅 为 VMware 平台 提供 实时 日 志 管理 ， 还 支持 通过 
syslog 转 发 日 志文 件 ， 如 第 三 方 网 络 、 存 储 、 应 用 程序 或 操作 系统 。 


syslog 协 议 是 RFC 5424 中 定义 的 标准 框架 ， 通 过 该 框架 ， 更 多 的 设备 可 以 将 事件 消息 发 送 到 集中 式 日 志 记 录 服 务 器 进行 分 
析 ， 排 查 故 障 和 安全 审核 。 但 是 ， 与 SNMP 不 同 ，syslog 不 能 用 于 轮 询 设备 来 收集 信息 。 相 反 ， 它 只 是 将 消息 转发 到 中 央 位 置 ， 
通过 接收 特定 的 日 志 消 息 或 自 定义 消息 的 模式 可 以 触发 特殊 的 事件 处 理 。 


由 于 syslog 协 议 具有 限定 标准 的 框架 ， 每 个 syslog 消 息 应 包含 5 个 不 同 的 字段 ， 如 图 10-14 所 示 。 


时 间 戳 主机 名 或 也 地 址 


error ~ | Latest hour of data 4 


路 Add Filter 2014-11-17 10:25:11,077 to 2014-11-17 11: 


Events Field Table 


Trend 


or Skipping resource group: 
eturned status : Not found. 


2014-11~17708:09:19.0702Z wi1-lil-s-022.vmsare,com Vpxa: [FFF73890 verbose pConnectionPool1-000000"] 
[RemoveConnection] Connection removed; cnx: TCPClientSocket(this=0e55bf18, state=CLOSED, 
_ConnectSocket=TCP(null)， error=(null)) TCPp(<null>); pooled: 1 


(Expand) 


2014-11~17T715:59:05.936Z wi-lil-d-005.eng.vaware.com Hostd: [318E28990 error “Default′opID=HB-host- 
61387841-22aa1595~39] Unable to parse MinRamPerCpy value: 
(Expand) 


[2014-~11-17 16:@3:13,812 tomcat-exec-39 INFO 
Com. vmware,. vim,. vcauthenticate, servlets.AuthenticationServlet] Sending Security error because of 
exception : com.vmware.vim.vcauthenticate.exception.BadRequestException: action not specified 


(Expand) 


2014-11-17T16:09:02.401Z Wi-1lil-d-005.eng.vmware.con Hostd: [31F3D898 error ‘EnvironmentManager’] 
Unable to obtain the default HW version 


(Expand) 





图 10-14 ” syslog 消息 结构 


作为 端 到 端 运 维 监 控 设计 的 一 部 分 ， 硬 件 和 软件 系统 通常 应 配置 为 将 日 志 消 息 通 过 系统 日 志 协 议 转 发 到 外 部 和 集中 式 系 统 消 
息 记 录 服 务 器 上 。 这 改善 了 系统 管理 ， 并 提供 了 大 多 数组 织 对 现 有 安全 和 审计 能 力 的 要 求 。 通 过 对 数据 中 心 的 所 有 硬件 (包括 
VvSphere 主 机 、 存 储 、 网 络 和 应 用 程序 组 件 ) 配置 日 志 记 录 到 外 部 系统 日 志 服 务 器 ，vRealize Log Insight 为 集中 式 管理 设备 上 
的 日 志 消 息 综合 分 析 提 供 了 框架 ， 并 提供 了 详细 的 可 视 化 界面 ， 以 查看 影响 主机 、 存 储 组 件 或 其 他 数据 中 心 硬件 的 事件 。 


虽然 vRealize Log Insight 仅 为 日 志 聚 合 和 分 析 工 具 ， 但 与 vRealize Operations Manager 一 起 使 用 时 ， 它 可 使 运 维 团队 整 
合 日 志 ， 监 控 及 解决 vSphere 存 储 和 第 三 方 基础 架构 故障 ， 并 执行 安全 审核 、 合 规 测试 、 日 志 查 询 、 聚 合 、 关 联 和 保留 。 


此 外 ， 通 过 创建 基于 查询 自 定义 仪表 板 ， 可 以 导出 、 共 享 ， 以 及 与 集成 vCenter Server 和 vRealize Operations Manager 集 
成 在 一 起 。 这 提供 了 一 个 统一 的 方法 来 创建 仪表 板 、 监 控 和 业务 管理 。 例 如 ， 通 过 采用 这 种 集成 的 方式 ， 所 有 操作 团队 可 以 从 单 
个 用 户 界面 查询 需要 管理 注意 的 事件 和 警告 (例如 数据 存储 变 为 满 的 或 软件 介质 错误 ) 。 还 可 以 提醒 团队 立即 关注 故障 和 出 错 警 
告 ， 如 以 下 错误 : 

电源 设备 故障 


“ 内 存 模 块 故障 


. SAN 或 网络 交换 机 故障 
“ 磁 瘟 故障 


此 外 ， 这 种 集成 方法 可 以 提供 连续 监控 ， 并 结合 自动 和 智能 报警 功能 ， 使 运 维 团队 和 管理 员 能 够 通过 查看 利用 率 和 性 能 趋势 
来 主动 避免 故障 。 


以 这 种 方式 监控 数据 中 心 系统 还 可 使 运 维 团 队 为 不 同类 型 的 警报 或 跨 平 台 识别 的 条 件 分 配 不 同 的 严重 性 级 别 。 例 如 ， 与 健康 
相关 的 警报 (如 磁盘 故障 ) 通常 被 归 类 为 关键 ， 标 识 该 警报 作为 具有 直接 的 不 良 后 果 。 其 他 事件 可 以 分 配 适当 的 优先 级 别 : 
1) 消息 。 目 前 无 须 上 T 操 作 干 预 的 有 用 信息 ， 例 如 通知 运 维 团队 授权 用 户 已 登录 到 特定 审核 系统 的 事件 。 


2) 警告 。 尽 管 情况 的 状况 目前 不 被 认为 是 至 天 重要 的 ， 但 需要 引起 IT 运 维 注 意 。 例 如 ， 虚 拟 磁盘 文件 已 达到 全 部 阅 值 的 
80%。 对 于 此 警报 ， 运 维 团队 有 时 间 决 定 采 取 何 种 措施 来 解决 问题 。 


3) 关键 。 运 维 团 队 需要 立即 关注 。 如 果 发 生 在 工作 时 间 以 外 ， 此 警报 要 求 随 叫 随 到 的 干预 ， 因 为 目前 的 状况 会 影响 系统 的 
性 能 或 可 用 性 。 例 如 : 一 个 存储 设备 故障 ， 提 示 所 分 配 的 操作 管理 员 必 须 尽 可 能 快 地 返回 联机 。 


10.8 Log Insight Syslog 设 计 


在 以 下 示例 设计 中 ，NOC 位 于 伦敦 ， 另 外 两 个 〈 主 要 和 次 要 ) 数据 中 心 位 于 远程 站 点 。 在 此 示例 设计 中 ， 系 统 日 志 数 据 必 
须 在 源 和 目标 之 间 端 对 端 进行 保护 。 敏 感 的 系统 日 志 消 息 通过 使 用 SSL 在 本 地 网 络 和 MPLS 网 络 上 得 到 保护 ， 并 通过 私有 隧道 连 
接 在 公共 Internet 上 进行 安全 保护 。 


这 3 个 数据 中 心 将 来 自 vSphere 主 机 、 网 络 和 存储 设备 的 日 志 消息 发 送 到 一 个 具有 三 节点 vRealize Log Insight 集 群 中 ， 作 为 
完整 的 VMware 管 理 基础 设施 的 一 部 分 ， 其 中 包括 vRealize Operations Manager。 


在 此 示例 设计 中 ， 客 户 有 超过 1500 个 设备 发 送 日 志 数 据 ， 并 且 需 要 一 个 双 节 点 vRealize Log Insight 集 群 来 满足 3 个 数据 中 
心 的 摄取 要 求 。 为 了 避免 主机 故障 不 会 对 日 志 消 息 摄取 造成 影响 ， 因 此 配置 了 三 节点 vVRealize Log Insight 集 群 。 此 外 ， 如 图 10- 
15 所 示 ， 每 个 数据 中 心 都 使 用 一 对 syslog 聚 合 器 将 日 志 转 发 到 伦敦 的 中 央 NOC。NOC 通 过 一 个 高 可 用 的 NSX Edge 设 备 ， 提 供 
外 部 负载 平衡 器 来 获取 系统 日 志 数 据 ， 从 而 允许 在 vRealize Log Insight 各 节点 间 均 匀 地 分 发 系统 日 志 消 息 。 
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Log Insight 通 过 SSL 转 发 syslog 
图 10-15 ”方案 设计 


值得 注意 的 是 ， 尽 管 存在 针对 Virtual SAN 的 vRealize Log Insight 内 容 包 ，vSAN 跟 踪 文 件 不 能 由 ESXi syslog 守 护 程 序 转发 
到 syslog 服 务 器 ， 因 为 将 会 引起 主机 系统 上 的 大 量 开销 。vSAN 跟 踪 文件 仅 在 vSphere 主 机 上 可 用 。 


10.9” 闯 到 端 监控 解决 方案 小 结 


正如 本 章 所 述 ， 端 到 端 监控 是 为 任何 存储 平台 提供 强大 的 操作 支持 机 制 的 关键 。 快 速 分 析 单 个 或 多 个 故障 事件 影响 的 能 力 往 
往 需 要 一 个 集成 的 工具 集 ， 将 从 不 同 来 源 的 信息 相关 联 。 如 图 10-16 所 示 ， 通 过 使 用 整体 和 综合 的 模块 化 方法 ， 运 营 团 队 应 该 能 
够 推断 出 一 组 看 似 无 天 的 问题 、 症 状 或 失败 是 否 有 一 个 共同 的 根本 原因 。 企 业 监 控 解 决 方案 必须 能 够 针对 个 别 问题 进行 警报 ， 而 
且 还 可 以 关联 和 分 析 多 个 故障 事件 ， 以 便 主 动 限制 任何 未 决 组 件 故 障 对 业务 的 影响 。 


10.10 ”存储 容量 管理 与 规划 


实现 真正 的 弹性 是 每 个 企业 IT 组 织 和 云 服务 提供 商 的 面临 的 挑战 。 允 许 应 用 程序 和 数据 库 根据 需求 扩展 和 收缩 ， 其 基础 架构 
需要 仔细 考虑 容量 规划 、 硬 件 应 急 和 趋势 指标 。 


各 种 规模 的 [TT 组 织 和 服务 提供 商 必须 建立 存储 容量 、 管 理 和 存储 基础 设施 可 用 性 策略 ， 以 及 计算 和 网 络 平台 等 其 他 资源 。 该 
策略 应 确保 基础 架构 内 存在 足够 的 存储 容量 ， 以 满足 当前 和 未 来 业务 需求 。 企 业 必 须 保留 足够 的 存储 空间 ， 以 防止 应 用 程序 之 间 
相互 竞争 性 能 或 容量 资源 。 然 而 ， 重 要 的 是 要 及 时 配置 新 的 存储 资源 以 避免 冲突 。 但 同样 重要 的 是 资源 不 易 超 量 或 部 署 太 早 ， 这 
将 导致 大 量 的 磁盘 空间 在 相当 长 的 时 间 内 闲置 。 


10.10.1 管理 策略 设计 

为 了 实现 以 下 目标 ， 需 要 制定 和 采用 支持 集中 式 能 力 管理 方法 的 流程 和 业务 策略 ， 并 采取 具体 活动 ， 如 时 间 框 架 以 及 参与 过 
程 中 的 角色 和 职责 。 容 量 管理 的 主要 目标 可 以 包括 以 下 内 容 : 

. 支持 组 织 现 有 的 预算 规划 流程 、 批 准 和 采购 的 时 间 表 

. 优化 现 有 存储 平台 的 容量 和 性 能 利用 率 ， 以 最 大 限度 地 提高 投资 回报 率 (ROI) 

为 现 有 应 用 程序 和 工作 负载 提供 可 靠 的 性 能 和 SLA 

. 确保 快速 、 及 时 提供 新 的 存储 ， 而 不 会 强调 配置 过 程 或 制造 丽 慌 购买 其 他 资源 ， 如 主机 、 磁 人 盘 或 存储 网 络 设备 


在 这 样 做 时 ， 存 储 容量 和 管理 策略 也 应 该 做 到 以 下 几 点 : 
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图 10-16 ” 端 到 端 监控 


义 平台 的 当前 总 容量 


六 


“ 定义 存储 容量 规划 流程 


" 定义 存储 容量 的 模型 


“ 确定 对 存储 容量 的 模型 实现 的 要 求 


* 识别 并 设置 存储 设置 触发 点 


* 确保 存储 容量 和 预算 预测 存在 


. 建立 容量 阅 值 和 容量 监测 程序 
* 确保 为 现 有 和 新 的 存储 要 求 持 续 融资 
定义 和 实施 诸如 此 处 概述 的 存储 容量 策略 ， 也 可 以 在 企业 的 组 织 和 运营 模式 方面 进行 ， 这 可 能 包括 以 下 要 素 : 
. 组 织 架 构 
. 跨 组 织 整合 和 调整 
* 业务 支持 系统 (BSS) 
. 运营 支撑 系统 (OSS) 
` I 服务 管理 (ITSM) 
- 流程 缩减 和 改进 


. 审查 当前 IT 服务 的 适用 性 


10.10.2 ”过程 与 方法 
容量 管理 过 程 及 其 相关 活动 针 在 通过 简单 的 预定 义 和 计 划 行 动 来 支持 上 述 目标 。 这 些 必须 通过 日 常 的 数据 中 心 操作 任务 ， 由 
准确 的 存储 容量 和 利用 率 数 据 ， 元 数据 的 验证 和 定期 的 容量 增长 来 支持 。 


管理 存储 容量 所 需 的 方法 涉及 各 种 步 又， 以 确定 当前 未 使 用 或 预 留 的 容量 、 新 需求 的 预测 ， 以 及 部 署 新 的 或 附加 存储 资源 的 
计划 ， 如 图 10-17 所 示 。 此 外 ， 作 为 容量 管理 策略 的 一 部 分 ， 定 义 的 工作 流 持续 评估 和 改进 ， 对 于 最 小 化 流程 对 业务 应 用 程序 和 
工作 负载 的 影响 至 关 重 要 。 


图 10-17 说 明了 存储 资源 定义 容量 和 性 能 管理 策略 的 示例 ， 以 及 流程 所 需 的 步骤 。 


通过 使 用 定期 的 容量 报告 和 监控 存储 资源 ， 运 营 团队 可 以 规划 和 主动 评估 存储 基础 架构 及 其 资源 消耗 。 然 而 ， 提 供 并 保证 可 
用 容量 级 别 也 与 日 常 上 T 业 务 活动 有 关 ， 如 : 


“ 警报 和 事件 监控 存储 基础 架构 

.收集 性 能 和 利用 率 数据 

. 验证 可 用 的 可 用 容量 ， 并 在 需要 时 验证 更 改 请 求 

* 排查 存储 性 能 事件 发 生 时 ， 确 定 存储 容量 过 度 使 用 是 否 是 问题 的 根本 原因 


“ 启动 和 管理 数据 中 心 的 额外 存储 资源 采购 和 配置 
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图 10-17 容量 和 性 能 管理 过 程 
此 外 ， 从 持续 改善 的 角度 来 看 ， 报 告 和 规划 活动 及 其 配套 工具 必须 调整 ， 并 保持 与 业务 和 运营 要 求 的 一 致 。 


例如 ， 正 在 使 用 的 进程 必须 能 够 将 存储 设备 上 的 容量 利用 率 级 别 与 所 观察 到 的 MO 级 别 进行 比较 ， 并 微调 该 过 程 以 驱动 更 多 
资源 的 使 用 ， 而 不 牺牲 可 用 性 或 性 能 。 此 外 ， 这 些 过 程 需要 提供 测量 硬件 组 件 (如 主机 、 存 储 网 络 设备 和 磁盘 ) 传送 时 间 框 架 的 
能 力 ， 并 考虑 访问 数据 中 心 设施 所 需 的 时 间 。 所 有 这 些 注 意 事项 都 必须 内 置 到 流程 中 ， 以 便 了 解 依赖 关系 ， 并 优化 实际 的 配置 时 
间 和 采购 生命 周期 ， 从 而 缩短 部 署 时 间 ， 使 结果 更 具 可 预测 性 。 

最 后 ， 容 量 管理 战略 及 其 过 程 显然 不 能 单独 存在 ， 因 为 它们 与 性 能 和 可 用 性 管理 密切 相关 。 负 责 容 量 管理 的 人 员 也 应 参与 操 


量 管理 
作 问 题 或 事故 ， 不 管 关系 到 性 能 还 是 存储 的 可 用 性 ， 以 确保 所 定义 的 过 程 作为 综合 方案 的 一 部 分 工作 。 通 过 采用 这 种 方法 ，IT 组 
织 可 以 确保 容量 利用 和 配置 不 能 作为 独立 过 程 来 解决 ， 而 不 考虑 存储 设计 和 实现 的 其 他 方面 。 


10.10.3 Virtual SAN 的 容量 管 


Virtual SAN 存 储 的 容量 管理 方法 与 传统 的 基于 阵列 的 系统 不 同 。 传 统 上 ， 存 储 容量 管理 和 可 扩展 性 在 某 种 程度 上 由 存储 供 
应 商 的 硬件 架构 来 支配 ， 由 供应 商 提供 明确 和 具体 的 指导 ， 将 存储 阵列 扩展 到 其 他 磁盘 托 架 。 在 数据 中 心 存 储 柜 的 布局 方面 ， 这 
通常 被 认为 是 物理 设计 的 一 部 分 ， 如 图 10-18 所 示 。 
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图 10-18 ”EMC Symmetrix VMAX 布 局 和 扩展 


然而 ，Virtual SAN 通 常 不 需要 这 样 复 杂 的 预测 。 它 还 提供 了 一 个 弹性 模型 ， 具 有 根据 需要 ， 通 过 精细 地 提供 单个 节点 或 添 
加 磁盘 扩大 或 缩小 ， 而 不 中 断 应 用 程序 或 停机 的 能 


Virtual SAN HCI 架 构 模块 提供 需要 时 获取 所 需 资源 的 能 力 ， 以 便 在 不 中 断 操 作 的 情况 下 扩展 容量 或 增加 性 能 ， 如 图 10-19 
所 示 。 
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图 10-19 ” Virtual SAN 弹 性 收缩 容量 和 性 能 


如 本 书 前 面 所 述 ，Virtual SAN 人 允许 你 横向 或 纵向 扩展 。 通 过 添加 节点 来 扩展 基础 架构 的 计算 和 存储 能 力 ， 同 时 增加 容量 和 
性 能 。 这 可 以 通过 容量 磁盘 增加 存储 资源 、 增 加 新 的 缓存 闪存 设备 改善 MO 性 能 ， 以 及 增加 新 的 CPU 和 内 存 添 加 计算 资源 来 实 


出 
© 


同样 ， 根 据 主 机 中 的 计算 利用 率 ， 可 用 磁盘 插 槽 、 网 络 利 用 率 以 及 设计 中 采用 的 构建 块 设计 方法 ， 更 适合 在 现 有 Virtual 
SAN 主 机 的 磁盘 组 中 通过 添加 新 磁盘 来 扩展 存储 资源 。 添 加 到 现 有 磁盘 组 中 的 新 容量 磁盘 只 能 增加 存储 容量 ， 通 过 添加 新 的 组 
存 设备 ， 可 以 提供 新 的 磁盘 组 来 允许 主机 在 容量 和 性 能 方面 进行 扩展 。 但 是 ，Virtual SAN 不 会 自动 将 原 有 数据 分 发 到 新 添加 的 


存储 设备 ， 必 须 在 添加 或 删除 存储 时 使 用 RVC 命 令 vsan.proactive_rebalance， 手 动 启动 主动 再 平衡 操作 。 


无 论 哪 种 方式 ， 最 终 的 结果 都 是 使 1T 组 织 和 服务 提供 商 能 够 以 无 中 断 的 方式 弹性 和 细 粒 度 地 扩展 存储 资源 ， 有 效 地 创建 了 模 
块 化 数据 中 心 所 需 的 构建 块 。 这 种 方法 通常 减少 了 大 规模 前 期 CapEx 投 资 的 需求 ， 并 为 容量 预测 提供 了 更 线性 的 预测 能 力 。 它 也 
很 好 地 符合 目前 向 着 横向 扩展 或 分 布 式 架构 模式 迈进 的 趋势 。 


10.11 小 结 


本 章 已 经 确定 并 解决 了 与 存储 平台 监控 和 管理 相关 的 所 有 主要 问题 ， 以 便 维 护 一 个 具有 最 佳 的 健康 、 容 量 、 性 能 和 安全 的 业 


最 后 ， 让 我 留 下 几 句 话 。 软 件 定义 的 数据 中 心 不 仅 仅 是 VMware 市 场 营销 部 门 愿景 的 一 部 分 ， 它 也 是 一 种 方法 ， 同 时 世界 各 
地 许 许多 多 的 IT 团队 也 正在 拥抱 它 。 


软件 定义 的 企业 模型 在 软件 与 硬件 之 间 解 厢 ， 经 过 多 年 的 努力 ， 使 其 更 好 地 配合 ， 以 提供 更 好 的 敏捷 性 、 灵 活性 和 高 效 性 。 


对 于 大 多 数 1T 组 织 和 服务 提供 商 而 言 ， 向 软件 定义 数据 中 心 模式 的 转变 是 个 有 多 个 步骤 的 过 程 。 对 于 大 部 分 组 织 而 言 ， 软 件 
定义 的 计算 开始 转型 。 软 件 定义 的 计算 指 的 是 x86 平 台 的 虚拟 化 ， 这 是 VMware 在 20 世 纪 90 年 代 未 开创 的 。 计 算 平台 的 虚拟 化 在 
过 去 15 年 里 ， 已 经 在 数据 中 心 内 很 好 地 建立 ， 并 提供 了 广泛 的 数据 中 心 可 用 性 和 基于 性 能 的 优化 ， 包 括 将 软件 定义 的 计算 平台 
扩展 到 数据 中 心 内 所 有 应 用 类 型 ， 并 实现 跨 数据 中 心 的 移动 性 。 


其 他 步骤 的 采用 顺序 通常 可 互 为 更 换 。 这 包括 通过 引入 自动 化 来 实现 上 T 运 营 转型 ， 以 便 通过 协调 的 工作 流程 将 手动 方式 蔡 换 
为 IT 任务 ， 并 将 软件 定义 网 络 引 入 数据 中 心 。 


软件 定义 的 网 络 是 指 网 络 层 虚 拟 化 和 在 数据 中 心中 发 现 的 传输 技术 ， 促 进 高 度 可 扩展 的 逻辑 网 络 和 基于 软件 的 网 络 设备 ， 如 
防火 墙 、 路 由 器 和 负载 平衡 器 。 网 络 虚 拟 化 的 主要 目的 是 提高 速度 ， 提 高 运营 效率 ， 并 实现 简化 灾难 恢复 模式 。 


然后 ， 如 本 书 重点 所 述 ， 软 件 定义 的 存储 引入 了 一 种 新 的 运 维 模式 ， 改 为 由 应 用 程序 和 软件 能 力 来 驱动 。 随 着 传统 经 典 存 储 
阵列 不 再 符合 许多 上 T 组 织 的 要 求 ，VMware 的 软件 定义 存储 模型 采用 领先 于 IT 行业 的 自动 化 和 去 除 复杂 化 的 方式 来 提高 效率 ， 同 
时 也 确保 其 具有 企业 级 的 功能 和 性 能 ， 从 而 使 Virtual SAN 和 虚拟 卷 成 为 下 一 代 虚 拟 化 应 用 程序 的 理想 存储 平台 。 


我 认为 我 们 已 经 看 清 IT 行业 ， 并 且 知 道 软件 定义 的 概念 将 在 未 来 几 年 内 彻底 改变 数据 中 心 基 础 设施 的 各 个 方面 ， 并 最 终 允 许 
这 些 虚 拟 化 层 驱动 的 概念 ， 将 计算 、 网 络 和 存储 层 用 于 优化 下 一 代 虚 拟 化 平台 。 


